特價 -20%

開源閉源LLM應用 – 從微調到RAG、Agent完整開發實作DM2513

原始價格:NT$880。目前價格:NT$704。

出版商 深智數位股份有限公司
出版日期 2025年2月19日
語言 繁體中文
頁數 496
ISBN 9786267569528

已售完

貨號: DM2513 Categories: ,

描述

內容簡介

★人工智慧的起源與發展歷程

☆機器學習的基本概念與分類方法

★神經網路的基礎結構與演化歷程

☆自然語言處理技術的發展與應用

★大型語言模型的構建原理與應用範疇

☆互動格式種類與ChatGPT介面詳解

★提示工程的原理、組成與實用技巧

☆工作記憶與長短期記憶的管理策略

★外部工具的整合方法與應用實例

☆ChatGPT擴充功能與Assistants API解析

★自主Agent系統的架構設計與案例分析

☆大型語言模型的安全技術與防護措施

 

【內容簡介】

本書涵蓋人工智慧的起源與發展,從達特茅斯會議探討機器思考,到現代大型語言模型的構建與應用,深入解析機器學習的概念、分類及運作,並介紹神經網路的結構與演變。自然語言處理技術部分展示NLP在科技中的應用,大型語言模型章節探討文字生成、自回歸模型與訓練過程,並指出其局限。入門部分介紹Completion、ChatML和Chat Completion等互動格式,詳解ChatGPT介面運作。提示工程章節涵蓋提示原理、組成與技巧,提升AI模型表現。工作記憶與長短期記憶管理探討減輕記憶負擔的方法及其對AI效率的影響。外部工具整合與應用實例展示如何增強AI功能,介紹基於提示和微調的工具如Self-ask、ReAct及Toolformer。ChatGPT擴充功能與Assistants API解析讓讀者了解如何定制和擴展AI應用,自主Agent系統章節通過案例展示其設計與應用潛力。進階部分探討無梯度最佳化、自主Agent系統及微調技術,提供深入研究與開發AI的知識。最後,大型語言模型的安全技術與防護措施闡述提示注入攻擊、防禦策略、越獄攻擊、資料投毒及模型浮水印方法,保障AI系統安全。

 

作者簡介

萬俊

◇南京大學計算數學專業本碩

◇現任中國香港瑞銀軟體工程師

◇OPPO前高級數據挖掘工程師

◇螞蟻集團前高級機器學習資料工程師

◇Udacity前機器學習和深度學習資深講師

◇曾多次在各類資料競賽中獲獎(Kaggle Kesci Data Castle)

◇已發表CCF A類論文一篇,EI論文一篇,神經網路測試專利一個

◇LeetCode專欄作家,著有「Enlighten AI」專欄

 

目錄

▌第1 篇 基礎

第1 章 從人工智慧的起源到大型語言模型

1.1 人工智慧的起源

1.1.1 機器能思考嗎

1.1.2 達特茅斯會議

1.2 什麼是機器學習

1.2.1 演繹推理與歸納推理

1.2.2 人工程式設計與自動程式設計

1.2.3 機器學習的過程

1.2.4 機器學習的分類

1.3 什麼是神經網路

1.3.1 還原論與湧現性

1.3.2 神經網路的發展歷史

1.3.3 神經網路基礎

1.3.4 神經網路的三要素

1.4 自然語言處理的發展歷程

1.4.1 什麼是自然語言處理

1.4.2 文字的向量化

1.4.3 神經網路中的自監督學習

1.5 大型語言模型

1.5.1 什麼是大型語言模型

1.5.2 語言模型中的token

1.5.3 自回歸模型與文字生成

1.5.4 統一自然語言任務

1.5.5 大型語言模型的訓練過程

1.5.6 大型語言模型的局限性

 

▌第2篇 入門

第2章 互動格式

2.1 Completion 互動格式

2.2 ChatML 互動格式

2.3 Chat Completion 互動格式

第3 章 提示工程

3.1 什麼是提示工程

3.2 提示的組成

3.3 提示的基礎技巧

3.3.1 在提示的末尾重複關鍵指令

3.3.2 使用更清晰的語法

3.3.3 儘量使用範例

3.3.4 明確要求大型語言模型回覆高品質的回應

3.4 Chat Completion 互動格式中的提示

3.5 提示範本與多輪對話

第4 章 工作記憶與長短期記憶

4.1 什麼是工作記憶

4.2 減輕工作記憶的負擔

4.2.1 Chain-of-Thought

4.2.2 Self-Consistency

4.2.3 Least-to-Most

4.2.4 Tree-of-Tought 和Graph-of-Tought

4.2.5 Algorithm-of-Tought

4.2.6 Chain-of-Density

4.3 關於大型語言模型的思考能力

4.4 長短期記憶

4.4.1 什麼是記憶

4.4.2 短期記憶

4.4.3 長期記憶

第5 章 外部工具

5.1 為什麼需要外部工具

5.2 什麼是外部工具

5.3 使用外部工具的基本原理

5.4 基於提示的工具

5.4.1 Self-ask 框架

5.4.2 ReAct 框架

5.4.3 改進ReAct 框架

5.5 基於微調的工具

5.5.1 Toolformer

5.5.2 Gorilla

5.5.3 function calling

第6 章 ChatGPT 介面與擴充功能詳解

6.1 OpenAI 大型語言模型簡介

6.2 ChatGPT 擴充功能原理

6.2.1 網頁即時瀏覽

6.2.2 執行Python 程式

6.2.3 影像生成

6.2.4 本地檔案瀏覽

6.3 Chat Completion 介面參數詳解

6.3.1 模型回應傳回的參數

6.3.2 向模型發起請求的參數

6.4 Assistants API

6.4.1 工具

6.4.2 執行緒

6.4.3 執行

6.4.4 Assistants API 整體執行過程

6.5 GPTs 與GPT 商店

6.5.1 GPTs 功能詳解

6.5.2 GPT 商店介紹

6.5.3 案例:私人郵件幫手

 

▌第3 篇 進階

第7 章 無梯度最佳化

7.1 單步最佳化

7.2 強化學習入門

7.3 多步最佳化中的預測

7.4 多步最佳化中的訓練

7.5 多步最佳化中的訓練和預測

第8 章 自主Agent 系統

8.1 自主Agent 系統簡介

8.2 自主Agent 系統的基本組成

8.3 自主Agent 系統案例分析(一)

8.3.1 BabyAGI

8.3.2 AutoGPT

8.3.3 BeeBot

8.3.4 Open Interpreter

8.3.5 MemGPT

8.4 自主Agent 系統案例分析(二)

8.4.1 CAMEL

8.4.2 ChatEval

8.4.3 Generative Agents

第9 章 微調

9.1 三類微調方法

9.2 Transformer 解碼器詳解

9.2.1 Transformer 的原始輸入

9.2.2 靜態編碼和位置編碼

9.2.3 Transformer 層

9.3 高效參數微調

9.3.1 Adapter 高效微調

9.3.2 Prompt 高效微調

9.3.3 LoRA 高效微調

9.3.4 高效微調總結

9.4 微調RAG 框架

9.4.1 RAG 框架微調概述

9.4.2 資料準備和參數微調

9.4.3 效果評估

第10 章 大型語言模型的安全技術

10.1 提示注入攻擊

10.1.1 攻擊策略

10.1.2 防禦策略

10.2 越獄攻擊與資料投毒

10.2.1 衝突的目標與不匹配的泛化

10.2.2 對抗樣本

10.2.3 資料投毒

10.3 幻覺和偏見問題

10.4 為大型語言模型增加浮水印

 

▌第4 篇 展望

第11 章 大型語言模型的生態與未來

11.1 多模態大型語言模型

11.1.1 什麼是多模態

11.1.2 GPT-4V 簡介

11.1.3 Gemini 簡介

11.2 大型語言模型的生態系統

11.3 大型語言模型的第一性原理:Scaling Law

11.3.1 什麼是Scaling Law

11.3.2 Scaling Law 的性質

11.3.3 Scaling Law 的未來

11.4 通向通用人工智慧:壓縮即智慧

11.4.1 編碼與無失真壓縮

11.4.2 自回歸與無失真壓縮

11.4.3 無失真壓縮的極限

11.5 圖靈機與大型語言模型:可計算性與時間複雜度

11.5.1 圖靈機與神經網路

11.5.2 智慧的可計算性

11.5.3 邏輯推理的時間複雜度

參考文獻

 

前言

2022 年11 月30 日,OpenAI 發佈了ChatGPT—— 一個基於生成式預訓練Transformer(Generative Pre-trained Transformer,GPT)技術的語言模型。一經發佈,ChatGPT 就在市場上引起了強烈反響,月活躍使用者數在接下來的兩個月迅速突破一億,打破了網際網路行業的使用者增長紀錄,成為史上增長最快的消費者應用。

雖然ChatGPT 只是一個語言模型,但透過適當的引導和互動,它可以被用於創作詩歌、撰寫文案、分析資料,甚至撰寫和偵錯程式。人類從ChatGPT 中似乎看到了實現通用人工智慧(General Artificial Intelligence,AGI)的一絲希望。

 

為什麼撰寫本書

ChatGPT 的出現只是一個起點,在之後的時間裡,先後出現了GPT-4、Alpaca、Bard、ChatGLM、LLaMA、Claude 等大型語言模型,可謂百花齊放。預計未來會有越來越多的大型語言模型問世,供消費者使用,這讓我們既興奮又焦慮。

興奮的是,我們可能正在開啟和經歷著人類歷史上的第四次工業革命。

焦慮的是,此類大型語言模型的推廣將極大地改變各行各業,特別是泛內容產業的規則、生態和格局。

未來,大型語言模型極有可能發展到與當前電腦作業系統的地位相當,因此,應用大型語言模型可以說是每個人不可或缺的技能。本書將幫助大家更進一步地理解和使用大型語言模型,即使你對人工智慧技術或程式設計技術一竅不通,也不用擔心。本書將用通俗易懂的語言和例子,說明大型語言模型的基本原理、基礎使用方法和進階開發技巧。

 

本書主要內容

本書的目標讀者是大型語言模型的使用者和應用程式開發者,全書共分為4篇。

第1 篇說明機器學習、神經網路的基本概念,自然語言處理的發展歷程,以及大型語言模型的基本原理。鑑於本書的重點在於大型語言模型的應用和延伸開發,因此本書將不涉及大型語言模型的訓練細節。然而,我們仍強烈建議讀者熟悉每個關鍵術語的含義,並了解大型語言模型的工作流程,以更進一步地理解後面的內容。

第2 篇說明大型語言模型的基礎應用技巧。首先,介紹大型語言模型常用的3 種互動格式。隨後,深入講解提示工程、工作記憶與長短期記憶,以及外部工具等與大型語言模型使用相關的概念。最後,對大型語言模型生態系統中的關鍵參與者——ChatGPT 的介面與擴充功能進行詳解。

第3 篇說明大型語言模型的進階應用技巧。首先,介紹如何將大型語言模型應用於無梯度最佳化,從而拓寬大型語言模型的應用領域。隨後,詳細討論各類基於大型語言模型的自主Agent 系統,以及微調的基本原理。最後,介紹與大型語言模型相關的安全技術。

第4 篇說明大型語言模型的未來。一方面,探討大型語言模型的生態系統和前景,簡介多模態大型語言模型和相關的提示工程。另一方面,深入解析大型語言模型的Scaling Law,並嘗試從無失真壓縮的角度來解析大型語言模型具備智慧的原因,最後以圖靈機與大型語言模型的聯繫作為全書的結尾。

 

致謝

首先,我要特別感謝我的愛人吳琨,她給予了我無盡的精神鼓勵,在我遇到挑戰或疑惑時,是她的鼓勵和信任給予我力量和靈感。她的支持不僅是對我的個人成長的肯定,也是對我的專業追求的認可。其次,我要感謝我的朋友,包括劉師齊、武洪凱、周傑和張馳。在ChatGPT 剛問世的半年多的時間裡,我們一直保持協作,探索大型語言模型在各種商業場景中的應用。在這段合作經歷中,我們累積了許多寶貴的經驗,對大型語言模型的應用程式開發也有了更

深刻的理解和認識。

我還要由衷感謝電子工業出版社為出版本書提供了機會,非常感激他們對這本書的認可和興趣。

由於筆者的理解和時間有限,且本書涉及的理論和技術內容繁多,書中的不妥和錯誤之處在所難免,歡迎各位讀者討論、批評和指正。

謹以此書獻給我的父親。

萬俊

額外資訊

出版商

深智數位股份有限公司

出版日期

2025年2月19日

語言

繁體中文

頁數

496

ISBN

9786267569528