描述
內容簡介
LLM原理完整回顧 - 大型語言模型整體脈絡最詳細剖析
✴︎ 數學基礎:張量,機率,微積分 ✴︎ 線性迴歸:模型之母 ✴︎ 邏輯迴歸:隱藏因數 ✴︎ 計量經濟學的啟示:他山之石 ✴︎ 最佳化演算法:參數估計 ✴︎ 反向傳播:神經網路的工程基礎 ✴︎ 多層感知器:神經網路的「創世記」 ✴︎ 卷積神經網路:深度學習的「出埃及記」 ✴︎ 循環神經網路:嘗試理解人類語言 ✴︎ 大語言模型:是通用人工智慧的開始嗎 ✴︎ 強化學習:在動態互動中進化 ✴︎ 其他經典模型:決策樹,隱馬可夫模型,聚類與降維,奇異值分解 |
作者簡介
|
目錄
第1章 緒論
1.1 是數位鸚鵡,還是自我意識 1.1.1 電車難題 1.1.2 任務分解 1.2 資料基礎 1.3 模型結構 1.4 關於本書 第2章 數學基礎:不可或缺的知識 2.1 向量、矩陣和張量 2.1.1 純量、向量、矩陣與張量 2.1.2 數學記號與特殊矩陣 2.1.3 矩陣運算 2.1.4 向量夾角 2.1.5 矩陣的秩 2.1.6 高維張量運算 2.2 機率 2.2.1 定義機率:事件和機率空間 2.2.2 條件機率:資訊的價值 2.2.3 隨機變數 2.2.4 正態分佈:殊途同歸 2.2.5 P-value:自信的猜測 2.3 微積分 2.3.1 導數和積分 2.3.2 極限 2.3.3 連鎖律 2.3.4 偏導數與梯度 2.3.5 極值與最值 2.4 本章小結 第3章 線性迴歸:模型之母 3.1 一個簡單的例子 3.1.1 機器學習的建模方式 3.1.2 統計分析的建模方式 3.2 模型實現 3.2.1 機器學習的程式實現 3.2.2 統計分析的程式實現 3.3 模型陷阱 3.3.1 過擬合:模型越複雜越好嗎 3.3.2 假設檢驗:統計分析的解決方案 3.3.3 懲罰項:機器學習的解決方案 3.3.4 比較兩種方案 3.4 未來導向的準備 3.4.1 圖形表示與數學表達 3.4.2 模型的生命週期與持久化 3.5 本章小結 3.5.1 要點回顧 3.5.2 常見面試問題 第4章 邏輯迴歸:隱藏因數 4.1 二元分類問題:是與否 4.1.1 線性迴歸:為何失效 4.1.2 視窗效應:看不見的才是關鍵 4.1.3 邏輯分佈 4.1.4 似然函數:統計分析的參數估計 4.1.5 損失函數:機器學習的參數估計 4.1.6 最終預測:從機率到類別 4.2 模型實現 4.2.1 初步分析資料:直觀印象 4.2.2 架設模型 4.2.3 理解模型結果 4.3 評估模型效果 4.3.1 查準率與查全率 4.3.2 F-score85 4.3.3 ROC空間 4.3.4 ROC曲線與AUC 4.3.5 AUC的機率解釋 4.4 非均衡資料集 4.4.1 準確度悖論 4.4.2 模型效果影響 4.4.3 解決方案 4.5 多元分類問題:超越是與否 4.5.1 多元邏輯迴歸 4.5.2 One-vs.-All:從二元到多元 4.5.3 模型實現 4.6 本章小結 4.6.1 要點回顧 4.6.2 常見面試問題 第5章 計量經濟學的啟示:他山之石 5.1 定量與定性:特徵的數學運算合理嗎 5.2 定性特徵的處理 5.2.1 虛擬變數 5.2.2 定性特徵轉為定量特徵 5.3 定量特徵的處理 5.3.1 定量特徵轉為定性特徵 5.3.2 基於卡方檢定的方法 5.4 多重共線性:多變數的煩惱 5.4.1 多重共線性效應 5.4.2 檢測多重共線性 5.4.3 解決方法 5.4.4 虛擬變數陷阱 5.5 本章小結 5.5.1 要點回顧 5.5.2 常見面試問題 第6章 最佳化演算法:參數估計 6.1 演算法想法:模擬捲動 6.2 梯度下降法 6.2.1 演算法使用的竅門 6.2.2 演算法的局限性:局部最佳與鞍點 6.3 梯度下降法的程式實現 6.3.1 PyTorch基礎 6.3.2 利用PyTorch的封裝函數 6.4 隨機梯度下降法:更最佳化的演算法 6.4.1 演算法細節 6.4.2 程式實現 6.4.3 進一步最佳化 6.5 本章小結 6.5.1 要點回顧 6.5.2 常見面試問題 第7章 反向傳播:神經網路的工程基礎 7.1 計算圖和向前傳播 7.1.1 什麼是計算圖 7.1.2 程式實現 7.2 連鎖律和反向傳播 7.2.1 拓撲排序 7.2.2 程式實現 7.2.3 梯度傳播過程 7.3 參數估計的全流程 7.3.1 隨機梯度下降法回顧 7.3.2 計算圖膨脹 7.4 動態最佳化 7.4.1 梯度累積 7.4.2 參數凍結 7.4.3 隨機失活 7.5 真實世界:針對大規模模型的最佳化技巧 7.5.1 GPU計算 7.5.2 混合精度訓練 7.5.3 梯度檢查點 7.5.4 分散式運算 7.6 本章小結 7.6.1 要點回顧 7.6.2 常見面試問題 第8章 多層感知器:神經網路的「創世記」 8.1 感知器模型 8.1.1 神經元的數字孿生 8.1.2 圖示與計算圖 8.1.3 Sigmoid感知器與邏輯迴歸 8.1.4 Softmax函數 8.2 從神經網路的角度重新理解邏輯迴歸 8.2.1 回顧視窗效應 8.2.2 程式實現 8.2.3 損失函數為模型注入靈魂 8.2.4 神經網路的建模文化:搭積木 8.3 多層感知器 8.3.1 圖形表示 8.3.2 數學基礎 8.3.3 令人驚訝的通用性 8.3.4 程式實現 8.3.5 模型的聯結主義 8.4 訓練最佳化的關鍵:啟動函數 8.4.1 壞死的神經細胞 8.4.2 數學基礎 8.4.3 監控模型訓練 8.4.4 不穩定的梯度 8.4.5 啟動函數的改進 8.5 從第一步開始最佳化訓練 8.5.1 模型損失的預估 8.5.2 參數初始化的初步最佳化 8.5.3 參數初始化的進一步最佳化 8.5.4 歸一化層 8.6 本章小結 8.6.1 要點回顧 8.6.2 常見面試問題 第9章 卷積神經網路:深度學習的「出埃及記」 9.1 利用多層感知器辨識數位 9.1.1 視覺物件的數字化 9.1.2 架設模型 9.1.3 程式實現 9.1.4 防止過擬合之隨機失活 9.1.5 防止過擬合之懲罰項 9.2 卷積神經網路 9.2.1 神經元的組織方式 9.2.2 卷積層的網路結構 9.2.3 卷積層的細節處理與程式實現 9.2.4 池化層 9.2.5 完整結構與實現 9.2.6 超越影像辨識 9.3 殘差網路 9.3.1 殘差連接 9.3.2 實現要點和小竅門 9.3.3 程式實現 9.4 本章小結 9.4.1 要點回顧 9.4.2 常見面試問題 第10章 循環神經網路:嘗試理解人類語言 10.1 自然語言處理的基本要素 10.1.1 語言數字化 10.1.2 分詞器的語言基礎 10.1.3 英文分詞器 10.1.4 中文分詞的挑戰 10.1.5 學習框架:遷移學習 10.2 利用多層感知器學習語言 10.2.1 資料準備 10.2.2 文字嵌入 10.2.3 程式實現 10.2.4 普通神經網路的缺陷 10.3 循環神經網路 10.3.1 圖示與結構 10.3.2 模型的關鍵:隱藏狀態 10.3.3 利用循環神經網路學習語言 10.3.4 模型訓練與文字生成 10.3.5 模型的學習原理:透過時間的反向傳播 10.4 深度循環神經網路 10.4.1 更優雅的程式實現 10.4.2 批次序列資料的處理 10.4.3 從單層走向更複雜的結構 10.4.4 利用深度循環神經網路學習語言 10.5 長短期記憶網路 10.5.1 短期記憶 10.5.2 模型結構 10.5.3 程式實現 10.5.4 利用長短期記憶網路學習語言 10.6 本章小結 10.6.1 要點回顧 10.6.2 常見面試問題 第11章 大語言模型:是通用人工智慧的開始嗎 11.1 注意力機制 11.1.1 設計初衷 11.1.2 改進後的注意力機制 11.1.3 數學細節與實現技巧 11.2 從零開始實現GPT-2 11.2.1 模型結構 11.2.2 多頭單向注意力 11.2.3 解碼區塊 11.2.4 GPT-2的完整結構與重現 11.2.5 Python語言學習任務 11.3 從大語言模型到智慧幫手 11.3.1 大語言模型的現狀 11.3.2 開放原始碼模型 11.3.3 從GPT到ChatGPT 11.3.4 提示工程 11.3.5 檢索增強生成 11.4 模型微調 11.4.1 模型微調的4種模式 11.4.2 高效調參概述 11.4.3 高效調參之增加模型元件 11.4.4 高效調參之LoRA 11.5 監督微調和評分建模 11.5.1 監督微調初體驗 11.5.2 更最佳化的監督微調 11.5.3 評分建模 11.5.4 如果重新建構ChatGPT 11.6 超越技術 11.6.1 智慧的哲學基礎 11.6.2 血汗工廠 11.6.3 碳足跡 11.7 本章小結 11.7.1 要點回顧 11.7.2 常見面試問題 第12章 強化學習:在動態互動中進化 12.1 大語言模型的持續最佳化 12.1.1 最大化評分:直觀但錯誤的模型 12.1.2 為什麼行不通:不可微的運算 12.1.3 可行的建模方式:調整損失函數 12.2 強化學習簡介 12.2.1 核心概念 12.2.2 目標定義 12.2.3 兩種解決方法 12.3 值函數學習 12.3.1 MC學習 12.3.2 貝爾曼方程式與TD學習 12.3.3 利用神經網路進行學習 12.3.4 n步TD學習與優勢函數 12.3.5 TD Lambda學習與GAE 12.4 策略學習 12.4.1 策略梯度定理 12.4.2 Reinforce演算法 12.4.3 基準線演算法 12.4.4 A2C演算法 12.5 利用PPO最佳化大語言模型 12.5.1 損失函數與參數更新 12.5.2 從A2C到PPO 12.5.3 微調遊戲獎勵 12.5.4 程式實現 12.6 本章小結 12.6.1 要點回顧 12.6.2 常見面試問題 第13章 其他經典模型:擴充視野 13.1 決策樹 13.1.1 決策規則 13.1.2 評判標準 13.1.3 決策樹的預測與模型的聯結 13.1.4 剪枝 13.2 樹的整合 13.2.1 隨機森林 13.2.2 梯度提升決策樹 13.3 隱馬可夫模型 13.3.1 一個簡單的例子 13.3.2 馬可夫鏈 13.3.3 模型架構 13.3.4 股票市場的應用 13.4 聚類與降維 13.4.1 經典聚類模型K-Means 13.4.2 如何選擇聚類個數 13.4.3 經典降維模型主成分分析 13.5 奇異值分解 13.5.1 數學定義 13.5.2 截斷奇異值分解 13.5.3 潛在語義分析 13.5.4 大型推薦系統 13.6 本章小結 13.6.1 要點回顧 13.6.2 常見面試問題 |
序
|