Name: 在思考和工具使用之後 - 利用大模型開發你的 AI 應用 DM2640
SKU: DM2640
Availability: OutOfStock

描述

內容簡介

☆全面迎戰 AI 2.0 時代，深度解析基座大模型訓練與選型策略。

★拆解硬核算力基礎，精準掌握 NVIDIA 與 AMD GPU 參數及選型。

☆掌握應用程式開發核心，透析上下文學習與人類回饋對齊方法。

★攻克文件前置處理難題，詳解分塊（Chunking）與詞元化策略。

☆剖析向量資料庫底層，實作相似性演算法與主流產品整合。

★突破高效微調技術瓶頸，運用開源工具打造專屬領域大模型。

☆解密推理效能最佳化，精通模型壓縮與 FlashAttention 記憶體管理。

★構建高併發部署環境，涵蓋 Web 服務、伺服器端與端側推理引擎。

☆昇華提示工程（Prompt）技術，結合 Dify 等開發工具提升精準度。

★深度實踐 RAG 與 Agent 架構，賦予大模型檢索與自主行動能力。

☆橫掃三大主流編排框架，實作 LangChain、LlamaIndex 與 Semantic Kernel。

★從環境準備到打包部署，完整解析真實大模型應用專案實戰範例。

◼本書共分 12 章，循序漸進地勾勒出大模型應用開發的完整藍圖。

第1至3章從 AI 2.0 時代的背景出發，說明基座大模型的預訓練與強化學習過程，並深度剖析 GPU 的底層知識與選型策略，奠定硬體與模型基礎。

第4至6章聚焦於資料與開發前置作業，涵蓋提示概念、文件分塊與詞元化處理，並詳細說明向量資料庫的相似性演算法與核心價值。

第7至9章直擊效能與工程部署，探討參數高效微調技術、推理效能最佳化（包含模型壓縮與多 GPU 並行化），並實作 Web 服務與伺服器/端側推理引擎的部署。

第10至12章則帶領讀者邁向應用巔峰，不僅解析提示工程的開發工具，更深度說明 RAG 與 Agent 架構的編排整合，涵蓋 LangChain 與 LlamaIndex 等主流框架，最後透過一個完整的應用範例，演示從環境準備到打包部署的實戰全過程。

作者簡介

李瀚

資深AI系統架構師。

長期從事AI平台及AI驅動的應用系統(推薦、搜索和大模型等)的架構設計與開發工作，在AI工程領域擁有深刻的認知和豐富的實戰經驗，曾設計並開發了企業級機器學習平台和大型模型應用開發平台等創新產品，服務多家世界500強企業AI轉型諮詢和項目落地。參與編寫《MLOps工程實踐：工具、技術與企業及應用》。

徐斌

擁有10年以上的網路安全經驗，在矽谷領先的網路安全公司從事數據分析平台的設計開發工作。精通網路安全防護、漏洞分析與滲透測試，尤其擅長結合數據分析和AI技術優化安全系統的檢測與應變能力，如通過深度學習、機器學習等AI技術分析大量的安全數據，實時發現潛在威脅，提升安全防護的效率。

▌第1 章 AI 2.0 時代到來

1.1 ChatGPT 旋風

1.1.1 ChatGPT 是什麼

1.1.2 豐富的應用

1.1.3 有喜有憂

1.2 認識AI 2.0 時代

1.2.1 何謂大模型

1.2.2 AI 1.0 時代與AI 2.0 時代特點分析

1.2.3 新「工業革命」來臨

1.3 本章小結

▌第2 章 基座大模型準備

2.1 大模型的歷史與未來

2.1.1 發展史

2.1.2 未來趨勢

2.2 基座大模型訓練過程

2.2.1 預訓練

2.2.2 人類回饋的強化學習

2.3 選擇合適的基座大模型

2.3.1 主流基座大模型介紹

2.3.2 選型標準

2.4 本章小結

▌第3 章 GPU 相關知識

3.1 基礎知識

3.1.1 顯示卡與GPU

3.1.2 GPU 與CPU

3.2 GPU 的優勢

3.2.1 GPU 與深度學習

3.2.2 CUDA 程式設計

3.3 準備合適的GPU

3.3.1 選擇合適的GPU（顯示卡）供應商

3.3.2 NVIDIA 與AMD

3.3.3 NVIDIA GPU 各項參數

3.3.4 選型建議

3.4 本章小結

▌第4 章 應用程式開發概覽

4.1 關鍵概念

4.1.1 提示

4.1.2 上下文學習

4.2 應用趨勢

4.2.1 趨勢變遷

4.2.2 產品形態

4.3 技術實現

4.3.1 對齊方法

4.3.2 優劣勢比較

4.3.3 應用流程

4.4 本章小結

▌第5 章 文件處理

5.1 分塊

5.1.1 分塊的作用

5.1.2 分塊的策略

5.1.3 策略選擇

5.2 詞元化

5.2.1 概念和方法

5.2.2 Token 採樣策略

5.3 嵌入

5.4 本章小結

▌第6 章 向量資料庫

6.1 基本概念

6.2 相關演算法

6.2.1 向量相似性演算法

6.2.2 工程中常用的向量搜索折中演算法

6.3 核心價值

6.4 定位

6.5 主流產品

6.6 本章小結

▌第7 章微調

7.1 背景與挑戰

7.1.1 背景知識

7.1.2 技術挑戰

7.2 參數高效微調技術

7.3 工具實踐

7.3.1 開放原始碼工具套件

7.3.2 模型微調服務

7.4 本章小結

▌第8 章 推理最佳化概論

8.1 最佳化目標

8.2 理論基礎

8.2.1 模型大小的指標

8.2.2 模型大小對推理性能的影響

8.2.3 大模型相關分析

8.3 常見最佳化技術

8.3.1 模型壓縮

8.3.2 Offloading

8.3.3 多GPU 並行化

8.3.4 高效的模型結構

8.3.5 FlashAttention

8.3.6 PagedAttention

8.3.7 連續批次處理

8.4 本章小結

▌第9 章 部署推理工具

9.1 推理架構概述

9.2 Web 服務

9.2.1 Streamlit 與Gradio

9.2.2 FastAPI 與Flask

9.3 推理執行引擎

9.3.1 伺服器端推理

9.3.2 端側推理

9.4 推理服務

9.5 對話類系統

9.6 本章小結

▌第10 章 提示工程

10.1 理論與技術

10.1.1 提示的價值

10.1.2 應用領域

10.1.3 提示工程技術

10.2 開發工具

10.2.1 OpenAI Playground

10.2.2 Dify

10.2.3 PromptPerfect

10.3 本章小結

▌第11 章 編排與整合

11.1 相關理論

11.1.1 面臨的問題

11.1.2 核心價值

11.1.3 功能組成

11.2 典型架構模式

11.2.1 RAG

11.2.2 Agent

11.3 常見編排框架

11.3.1 LangChain 框架

11.3.2 LlamaIndex 框架

11.3.3 Semantic Kernel 框架

11.4 本章小結

▌第12 章 應用範例

12.1 整體架構

12.2 開發過程

12.2.1 環境準備

12.2.2 實現解析

12.2.3 打包部署

12.2.4 範例演示

12.3 本章小結

▌參考文獻

序

前言

生成式AI 引領的AI 2.0 時代已經到來，各種大模型應用如雨後春筍般湧現，令人眼花繚亂。大眾期待大模型應用能像行動網際網路應用那樣，徹底改變生活方式。對廣大技術從業者而言，這也表示一個前所未有的機遇。因此，大家對大模型相關技術的關注達到了前所未有的高度。這不僅引起了自然語言演算法研究人員的關注，還吸引了大量工程師和行業同好的目光。他們迫切地想學習大模型及其應用程式開發的技術，期望能將其融入現有產品，或打造出具有巨大潛力的新產品。

為什麼撰寫本書

自從ChatGPT 於2022 年11 月問世，並在短短三個月內迅速「走紅」，人們紛紛驚嘆於它的卓越表現。它的成功進一步激發了大眾對其背後技術及基於該技術建構智慧應用方法的濃厚興趣。對傳統的應用程式開發者來說，生成式AI 等新技術讓AI 應用的開發變得相對簡單，不再像AI 1.0 時代那樣困難。這種轉變從另一個角度點燃了大家學習和應用AI 的熱情。作為其中一員，我也投身於大模型的學習與研究中。

在2023 年4—5 月，我發現儘管網路上有大量關於大模型技術的文章，涵蓋微調、LoRA、量化、RAG、Agent 等技術概念，以及LangChain 等框架的使用方法，但這些內容往往是零散的，缺乏系統性。特別是自然語言處理技術的研究方向繁多，技術更新迭代極快。以微調為例，早期90% 的文章討論的是BERT 的微調方法，而在大模型時代，討論的重點自然轉向了類似於GPT 的系列模型。這些碎片化的內容對初學者來說極具挑戰性，初學者需要的是對大模型及其應用程式開發技術的更加了解，而非東拼西湊的碎片化學習。我在學習過程中也深刻感受到這種困惑和無奈。因此，我認為有必要結合自己多年從事AI 應用程式開發工作的經驗和對大模型技術的理解，分享我的經驗和心

得，幫助更多的人更進一步地學習大模型應用程式開發。

本書適合沒有演算法背景的工程師閱讀。從內容上來看，考慮到受眾需求和技術快速迭代可能導致部分細節過時，本書從核心概念、常見問題、一般開發流程和開發範式入手，幫助讀者全面地掌握大模型應用程式開發的系統，並幫助讀者迅速進入這一領域。讀者可以結合自身實際需求深入研究相關環節，實現成功轉型。

本書主要內容

本書共包括12 章，圍繞大模型應用程式開發相關內容展開，主要內容如下。

第1 章介紹大模型應用程式開發中的典型產品和常見應用場景，並探討AI1.0 與AI 2.0 在技術上的變化。這一章幫助讀者初步認識大模型，了解其特點與局限性，從而對大模型有一個基本的認知和理解。

第2 章介紹基座大模型的發展歷程、未來趨勢及一般的訓練過程，深入探討當前主流的大模型，並提供選擇基座大模型時需要考慮的關鍵因素。

第3 章聚焦於GPU 的基礎知識，詳細解釋GPU 的定位、與CPU 的區別，及其與深度學習的關係和核心價值。本章將全面解析選擇合適的GPU 時需考慮的各種問題，為後續學習應用程式開發方法打下基礎。

第4 章從巨觀角度介紹大模型應用的核心概念、通用開發流程及未來發展趨勢，包括模型與應用場景需求對齊的技術，微調與上下文學習的適用場景及優劣勢比較。

第5 章探討大模型應用程式開發中的關鍵環節——文件處理。本章涵蓋了高品質文字資料供給的核心步驟，如文字分塊、詞元化、嵌入等內容。

第6 章聚焦大模型應用中的核心中介軟體——向量資料庫，探討其作為大模型「記憶體」的作用。本章介紹向量資料庫的概念、相關演算法及其在大模型中的應用價值，並結合當前主流向量資料庫展開討論。

第7 章詳細介紹微調技術，包括微調的定義、歷史演變、參數高效微調技術，以及常見的微調工具和產品。

第8 章重點講解模型推理最佳化，涵蓋模型最佳化的理論基礎，以及常見的模型壓縮、量化等最佳化技術，幫助開發者有針對性地提高模型推理性能。

第9 章介紹模型部署與推理的整體架構，展示各層的代表性產品，如vLLM、Ollama 等，分析這些明星產品在不同場景中的應用方法。

第10 章探討提示工程的概念與價值，精選了13 種常見的提示工程技術，並介紹與提示最佳化相關的工具和產品。

第11 章解讀大模型應用程式開發中的「匯流排」——編排與整合，深入分析編排的作用、典型架構模式及主流的編排整合框架。

第12 章以問答場景為例，一步步引導讀者完成典型的RAG 應用程式開發，幫助讀者在實際操作中掌握大模型應用程式開發的基本流程，實現第一個「HelloWorld」專案。

致謝

本書的原始內容來源自我在學習過程中的總結與心得，最初以連載的形式發佈在「AI 工程化」公眾號上。在創作過程中，我收到了大量讀者的回饋與支援，正是你們給予了我不斷前行的動力，對此我深表感謝。然而，從文章到圖書，這個過程充滿了挑戰和艱辛。感謝我的夥伴徐斌先生的支援與陪伴，也感謝深智數位出版社，正是有了大家的共同努力，才能將這些內容進一步整理、完善成書，呈現給讀者。

由於個人水準有限，書中難免存在不足和錯誤之處，懇請讀者們批評指正。

李瀚