特價 -20%

LLM原理完整回顧 – 大型語言模型整體脈絡最詳細剖析DM2503

原始價格:NT$1,080。目前價格:NT$864。

出版商 深智數位股份有限公司
出版日期 2025年1月19日
語言 繁體中文
頁數 512
ISBN 9786267569375

Add to Wishlist
貨號: DM2503 Categories: ,

描述

內容簡介

LLM原理完整回顧 - 大型語言模型整體脈絡最詳細剖析

✴︎    數學基礎:張量,機率,微積分

✴︎    線性迴歸:模型之母

✴︎    邏輯迴歸:隱藏因數

✴︎    計量經濟學的啟示:他山之石

✴︎    最佳化演算法:參數估計

✴︎    反向傳播:神經網路的工程基礎

✴︎    多層感知器:神經網路的「創世記」

✴︎    卷積神經網路:深度學習的「出埃及記」

✴︎    循環神經網路:嘗試理解人類語言

✴︎    大語言模型:是通用人工智慧的開始嗎

✴︎    強化學習:在動態互動中進化

✴︎    其他經典模型:決策樹,隱馬可夫模型,聚類與降維,奇異值分解

 

 

作者簡介

作者簡介

唐亘

資料科學家,專注於人工智慧和巨量資料,積極參與Apache Spark、scikit-learn等開放原始碼項目,曾為華為、復旦大學等多家機構提供過百餘場技術培訓。曾撰寫《精通數據科學:從線性回歸到深度學習》一書,並擔任英國最大線上出版社Packt的技術審稿人。畢業於復旦大學,獲數學與電腦科學雙學士學位,後求學於巴黎綜合理工學院,獲經濟學和資料科學雙碩士學位。

 

目錄

第1章 緒論

1.1 是數位鸚鵡,還是自我意識

1.1.1 電車難題

1.1.2 任務分解

1.2 資料基礎

1.3 模型結構

1.4 關於本書

第2章 數學基礎:不可或缺的知識

2.1 向量、矩陣和張量

2.1.1 純量、向量、矩陣與張量

2.1.2 數學記號與特殊矩陣

2.1.3 矩陣運算

2.1.4 向量夾角

2.1.5 矩陣的秩

2.1.6 高維張量運算

2.2 機率

2.2.1 定義機率:事件和機率空間

2.2.2 條件機率:資訊的價值

2.2.3 隨機變數

2.2.4 正態分佈:殊途同歸

2.2.5 P-value:自信的猜測

2.3 微積分

2.3.1 導數和積分

2.3.2 極限

2.3.3 連鎖律

2.3.4 偏導數與梯度

2.3.5 極值與最值

2.4 本章小結

第3章 線性迴歸:模型之母

3.1 一個簡單的例子

3.1.1 機器學習的建模方式

3.1.2 統計分析的建模方式

3.2 模型實現

3.2.1 機器學習的程式實現

3.2.2 統計分析的程式實現

3.3 模型陷阱

3.3.1 過擬合:模型越複雜越好嗎

3.3.2 假設檢驗:統計分析的解決方案

3.3.3 懲罰項:機器學習的解決方案

3.3.4 比較兩種方案

3.4 未來導向的準備

3.4.1 圖形表示與數學表達

3.4.2 模型的生命週期與持久化

3.5 本章小結

3.5.1 要點回顧

3.5.2 常見面試問題

第4章 邏輯迴歸:隱藏因數

4.1 二元分類問題:是與否

4.1.1 線性迴歸:為何失效

4.1.2 視窗效應:看不見的才是關鍵

4.1.3 邏輯分佈

4.1.4 似然函數:統計分析的參數估計

4.1.5 損失函數:機器學習的參數估計

4.1.6 最終預測:從機率到類別

4.2 模型實現

4.2.1 初步分析資料:直觀印象

4.2.2 架設模型

4.2.3 理解模型結果

4.3 評估模型效果

4.3.1 查準率與查全率

4.3.2 F-score85

4.3.3 ROC空間

4.3.4 ROC曲線與AUC

4.3.5 AUC的機率解釋

4.4 非均衡資料集

4.4.1 準確度悖論

4.4.2 模型效果影響

4.4.3 解決方案

4.5 多元分類問題:超越是與否

4.5.1 多元邏輯迴歸

4.5.2 One-vs.-All:從二元到多元

4.5.3 模型實現

4.6 本章小結

4.6.1 要點回顧

4.6.2 常見面試問題

第5章 計量經濟學的啟示:他山之石

5.1 定量與定性:特徵的數學運算合理嗎

5.2 定性特徵的處理

5.2.1 虛擬變數

5.2.2 定性特徵轉為定量特徵

5.3 定量特徵的處理

5.3.1 定量特徵轉為定性特徵

5.3.2 基於卡方檢定的方法

5.4 多重共線性:多變數的煩惱

5.4.1 多重共線性效應

5.4.2 檢測多重共線性

5.4.3 解決方法

5.4.4 虛擬變數陷阱

5.5 本章小結

5.5.1 要點回顧

5.5.2 常見面試問題

第6章 最佳化演算法:參數估計

6.1 演算法想法:模擬捲動

6.2 梯度下降法

6.2.1 演算法使用的竅門

6.2.2 演算法的局限性:局部最佳與鞍點

6.3 梯度下降法的程式實現

6.3.1 PyTorch基礎

6.3.2 利用PyTorch的封裝函數

6.4 隨機梯度下降法:更最佳化的演算法

6.4.1 演算法細節

6.4.2 程式實現

6.4.3 進一步最佳化

6.5 本章小結

6.5.1 要點回顧

6.5.2 常見面試問題

第7章 反向傳播:神經網路的工程基礎

7.1 計算圖和向前傳播

7.1.1 什麼是計算圖

7.1.2 程式實現

7.2 連鎖律和反向傳播

7.2.1 拓撲排序

7.2.2 程式實現

7.2.3 梯度傳播過程

7.3 參數估計的全流程

7.3.1 隨機梯度下降法回顧

7.3.2 計算圖膨脹

7.4 動態最佳化

7.4.1 梯度累積

7.4.2 參數凍結

7.4.3 隨機失活

7.5 真實世界:針對大規模模型的最佳化技巧

7.5.1 GPU計算

7.5.2 混合精度訓練

7.5.3 梯度檢查點

7.5.4 分散式運算

7.6 本章小結

7.6.1 要點回顧

7.6.2 常見面試問題

第8章 多層感知器:神經網路的「創世記」

8.1 感知器模型

8.1.1 神經元的數字孿生

8.1.2 圖示與計算圖

8.1.3 Sigmoid感知器與邏輯迴歸

8.1.4 Softmax函數

8.2 從神經網路的角度重新理解邏輯迴歸

8.2.1 回顧視窗效應

8.2.2 程式實現

8.2.3 損失函數為模型注入靈魂

8.2.4 神經網路的建模文化:搭積木

8.3 多層感知器

8.3.1 圖形表示

8.3.2 數學基礎

8.3.3 令人驚訝的通用性

8.3.4 程式實現

8.3.5 模型的聯結主義

8.4 訓練最佳化的關鍵:啟動函數

8.4.1 壞死的神經細胞

8.4.2 數學基礎

8.4.3 監控模型訓練

8.4.4 不穩定的梯度

8.4.5 啟動函數的改進

8.5 從第一步開始最佳化訓練

8.5.1 模型損失的預估

8.5.2 參數初始化的初步最佳化

8.5.3 參數初始化的進一步最佳化

8.5.4 歸一化層

8.6 本章小結

8.6.1 要點回顧

8.6.2 常見面試問題

第9章 卷積神經網路:深度學習的「出埃及記」

9.1 利用多層感知器辨識數位

9.1.1 視覺物件的數字化

9.1.2 架設模型

9.1.3 程式實現

9.1.4 防止過擬合之隨機失活

9.1.5 防止過擬合之懲罰項

9.2 卷積神經網路

9.2.1 神經元的組織方式

9.2.2 卷積層的網路結構

9.2.3 卷積層的細節處理與程式實現

9.2.4 池化層

9.2.5 完整結構與實現

9.2.6 超越影像辨識

9.3 殘差網路

9.3.1 殘差連接

9.3.2 實現要點和小竅門

9.3.3 程式實現

9.4 本章小結

9.4.1 要點回顧

9.4.2 常見面試問題

第10章 循環神經網路:嘗試理解人類語言

10.1 自然語言處理的基本要素

10.1.1 語言數字化

10.1.2 分詞器的語言基礎

10.1.3 英文分詞器

10.1.4 中文分詞的挑戰

10.1.5 學習框架:遷移學習

10.2 利用多層感知器學習語言

10.2.1 資料準備

10.2.2 文字嵌入

10.2.3 程式實現

10.2.4 普通神經網路的缺陷

10.3 循環神經網路

10.3.1 圖示與結構

10.3.2 模型的關鍵:隱藏狀態

10.3.3 利用循環神經網路學習語言

10.3.4 模型訓練與文字生成

10.3.5 模型的學習原理:透過時間的反向傳播

10.4 深度循環神經網路

10.4.1 更優雅的程式實現

10.4.2 批次序列資料的處理

10.4.3 從單層走向更複雜的結構

10.4.4 利用深度循環神經網路學習語言

10.5 長短期記憶網路

10.5.1 短期記憶

10.5.2 模型結構

10.5.3 程式實現

10.5.4 利用長短期記憶網路學習語言

10.6 本章小結

10.6.1 要點回顧

10.6.2 常見面試問題

第11章 大語言模型:是通用人工智慧的開始嗎

11.1 注意力機制

11.1.1 設計初衷

11.1.2 改進後的注意力機制

11.1.3 數學細節與實現技巧

11.2 從零開始實現GPT-2

11.2.1 模型結構

11.2.2 多頭單向注意力

11.2.3 解碼區塊

11.2.4 GPT-2的完整結構與重現

11.2.5 Python語言學習任務

11.3 從大語言模型到智慧幫手

11.3.1 大語言模型的現狀

11.3.2 開放原始碼模型

11.3.3 從GPT到ChatGPT

11.3.4 提示工程

11.3.5 檢索增強生成

11.4 模型微調

11.4.1 模型微調的4種模式

11.4.2 高效調參概述

11.4.3 高效調參之增加模型元件

11.4.4 高效調參之LoRA

11.5 監督微調和評分建模

11.5.1 監督微調初體驗

11.5.2 更最佳化的監督微調

11.5.3 評分建模

11.5.4 如果重新建構ChatGPT

11.6 超越技術

11.6.1 智慧的哲學基礎

11.6.2 血汗工廠

11.6.3 碳足跡

11.7 本章小結

11.7.1 要點回顧

11.7.2 常見面試問題

第12章 強化學習:在動態互動中進化

12.1 大語言模型的持續最佳化

12.1.1 最大化評分:直觀但錯誤的模型

12.1.2 為什麼行不通:不可微的運算

12.1.3 可行的建模方式:調整損失函數

12.2 強化學習簡介

12.2.1 核心概念

12.2.2 目標定義

12.2.3 兩種解決方法

12.3 值函數學習

12.3.1 MC學習

12.3.2 貝爾曼方程式與TD學習

12.3.3 利用神經網路進行學習

12.3.4 n步TD學習與優勢函數

12.3.5 TD Lambda學習與GAE

12.4 策略學習

12.4.1 策略梯度定理

12.4.2 Reinforce演算法

12.4.3 基準線演算法

12.4.4 A2C演算法

12.5 利用PPO最佳化大語言模型

12.5.1 損失函數與參數更新

12.5.2 從A2C到PPO

12.5.3 微調遊戲獎勵

12.5.4 程式實現

12.6 本章小結

12.6.1 要點回顧

12.6.2 常見面試問題

第13章 其他經典模型:擴充視野

13.1 決策樹

13.1.1 決策規則

13.1.2 評判標準

13.1.3 決策樹的預測與模型的聯結

13.1.4 剪枝

13.2 樹的整合

13.2.1 隨機森林

13.2.2 梯度提升決策樹

13.3 隱馬可夫模型

13.3.1 一個簡單的例子

13.3.2 馬可夫鏈

13.3.3 模型架構

13.3.4 股票市場的應用

13.4 聚類與降維

13.4.1 經典聚類模型K-Means

13.4.2 如何選擇聚類個數

13.4.3 經典降維模型主成分分析

13.5 奇異值分解

13.5.1 數學定義

13.5.2 截斷奇異值分解

13.5.3 潛在語義分析

13.5.4 大型推薦系統

13.6 本章小結

13.6.1 要點回顧

13.6.2 常見面試問題

 

撰寫背景

以ChatGPT為代表的大語言模型一經問世,便立即吸引了全世界的目光。大語言模型不僅能理解人類語言,還能掌握語言中蘊含的知識,能夠輕鬆地與人類進行深入交談,並高效完成各種任務。在許多場景中,如果將系統的互動介面隱藏起來,我們甚至很難分辨它和真人之間的差異。尤其引人注目的是,大語言模型不時展現出自我意識,這引發了人們對人工智慧的廣泛討論。一些人甚至開始感到恐慌,擔心人工智慧將逐漸取代作為碳基生物的人類,成為主導地球的新型矽基生物。

 

人工智慧對人類社會的影響難以準確預測,就如同在網際網路最初興起時,人們難以想像它將如何改變我們的生活。毫無疑問,人工智慧帶來的衝擊將是巨大的,甚至可能超越網際網路,與電的發明相媲美,引發第四次工業革命(前三次工業革命分別由機械化、電氣化、資訊技術主導)。從目前已知的發展趨勢來看,人工智慧至少會徹底改變人與電腦的互動方式。

 

對技術人員而言,大語言模型能夠自動生成大部分基礎程式,從而降低傳統程式設計的門檻。這雖然帶來了諸多便利,但就像汽車取代馬車一樣,也可能減少相關職務的數量,使部分技術人員面臨失業的風險,這只是硬幣的一面。另一方面,隨著人工智慧的廣泛應用,現有系統將按照人工智慧的方式進行改造或重新建構,這必然會帶來新的需求。為了抓住時代的紅利,技術人員必須對人工智慧技術有深刻的理解。

 

對非技術人員而言,人工智慧的應用使他們能夠繞開撰寫程式,直接透過自然語言與電腦互動,顯著提升他們駕馭電腦的能力。除生成程式外,大多數基礎工作,如撰寫報告和製作PPT等,人工智慧同樣能夠勝任。面對這樣一個高效、無須休息且掌握大量知識的競爭者,非技術人員也需要認真思考哪些工作是無法被機器取代的。

 

投資大師巴菲特曾戲言,「大多數經濟學家在思想上最經濟,他們把在所究所學生院學到的東西用一輩子」。然而,即將迎來人工智慧時代的我們並沒有如此幸運,因為理解和掌握人工智慧將成為必不可少的技能。大語言模型雖處於人工智慧的前端,但相關的最新資料分散在各種學術期刊上,其中有些內容過於注重數學細節,顯得晦澀難懂。因此,筆者撰寫本書的初衷和目標十分清晰:以從零開始複刻ChatGPT為導向,搜集人工智慧的相關資料,將其以更優雅的形式呈現出來,旨在幫助讀者更進一步地理解大語言模型。

本書內容

相比於同類圖書,本書在理論基礎和工程實現方面都頗具特色。在理論基礎方面,人工智慧知識涉及多個學科,包括統計分析、機器學習、計量經濟學等。雖然同一模型在不同的學科中有不同的側重點,但由於學科之間的割裂,很少有資料對它們進行融合和深入討論。本書致力於打通這些學科之間的隔閡,透過類比的方式展示它們之間的連結。此外,本書在架設大語言模型的過程中參考了許多經典模型的最佳實踐經驗,因此使用了較大篇幅來討論和講解相關模型的架設技巧及發展歷程,以幫助讀者更進一步地掌握其中的精髓。

 

在工程實現方面,對於本書涉及的經典模型,第三方開放原始碼工具已經提供了封裝良好的實現,使用起來並不複雜。然而,若僅限於使用這些開放原始碼工具,對模型的理解可能流於表面。此外,出於工程化的考慮,這些開放原始碼工具的程式引入了過多的封裝和細節,即讓讀者有意深入閱讀這些開放原始碼工具的原始程式,也難以理解模型的核心結構。因此,本書偏重於重新實現模型的核心部分,以幫助讀者更進一步地理解模型。有時,使用人類的語言描述一些精妙的演算法細節需要花費較大篇幅,而且效果並不盡如人意。相比之下,直接閱讀程式則更加直觀清晰。

 

在章節安排上,本書分為三個主要部分。

 

第一部分深入討論人工智慧領域最基礎的線性迴歸模型和邏輯迴歸模型,詳見第2 ∼ 5章。這兩個模型被認為是神經網路的基石,許多複雜模型的設計理念都源於它們。因此,深刻理解二者中的設計細節和訓練方式可謂至關重要。這兩個模型足夠簡單,我們正好可以透過它們來探討一些人工智慧的通用問題,如過擬合和懲罰項等。此外,這兩個模型的理論基礎涉及統計分析和計量經濟學,這些學科也能為人工智慧的發展提供啟示和參考。

 

第二部分介紹神經網路的相關內容,詳見第6 ∼ 12章。本書以模型的最佳化演算法為起點,詳細解析了神經網路的基石—反向傳播演算法,並在此基礎上,逐一討論經典神經網路的核心結構。在這個過程中,常用的訓練最佳化方法也是重點內容之一,這些方法可以幫助模型更快地收斂。隨後,本書將展開對大語言模型的討論:從零開始實現GPT-2 模型,繼而深入研究如何將GPT 演進為ChatGPT。這一過程將涉及模型微調和強化學習等內容。

 

第三部分簡介一些與神經網路相關的經典模型,詳見第13章。這些內容旨在為讀者拓寬視野,以便於更深入地理解神經網路技術的起源和演進過程。

建議和回饋

在撰寫本書的過程中,筆者已努力追求完美,但由於個人水準有限,書中難免存在一些瑕疵。誠邀各位讀者不吝賜教,請將您的寶貴意見和批評發送至筆者電子郵件tgbaggio@hotmail.com或本書編輯電子郵件zhangshuang@phei.com.cn。

 

讀者的回饋對於完善和提升本書的品質非常重要,我們期待著您的建議,也感謝您對本書的支援!

致謝

首先,我想將這本書獻給我的妻子劉曉帆女士!儘管她並非技術人員,也許都不是本書的讀者,但身為作者,我有一點點特權,可以將自己的書獻給我最珍視的人。

 

同時,對於父母和岳父母在本書撰寫過程中給予的支援和鼓勵,我深表感激。此外,特別感謝梁啟鴻先生,他在行文和內容上的指導意見對完善本書有著至關重要的作用。感謝韓家煒教授、彭健教授、楊衛東教授、周海洋先生、周輝先生對我的無私幫助。我還要對我的初中數學老師吳獻女士表示深深的謝意,她的諄諄教誨讓我終身難忘。

 

最後,由衷感謝電子工業出版社的張爽女士為本書的順利出版所付出的辛勤努力。本書的完成離不開每一位在我背後默默提供支援和付出努力的人。雖然此處未一一列舉,但我對你們每個人的幫助都懷有深深的感激之情。

唐亘

2024 年4 月

額外資訊

出版商

深智數位股份有限公司

出版日期

2025年1月19日

語言

繁體中文

頁數

512

ISBN

9786267569375