Name: 更少GPU卻更強 - LLM輕量化壓縮及加速訓練 DM2591
SKU: DM2591
Availability: OutOfStock

描述

內容簡介

【內容特點】

★Transformer與MoE架構計算特性

★模型壓縮技術：量化、剪枝、蒸餾

★混合精度訓練與分散式訓練架構

★ONNX與TensorRT格式轉換流程

★運算圖最佳化：融合、重寫、記憶體配置

★端側學習與聯邦學習通訊機制

★IR中介表示與計算圖優化策略

★動態Batch與記憶體排程機制

★cuDNN與MKLDNN運算元庫應用

★CUDA核心函數與GPU記憶體管理

★Vulkan推理加速與圖形並行整合

★OpenCL與AVX跨平台加速

★DeepSeek-V3訓練與推理結構

★FP8精度訓練與Sigmoid路由演算法

【內容簡介】

本書從工程實作與架構設計的角度出發，系統地整理了大模型在實際部署中的資源瓶頸與解決方案。從Transformer與MoE架構切入，解析其帶來的計算與儲存壓力，並延伸至量化、剪枝、知識蒸餾等主流模型壓縮技術的原理與實作要點。書中不僅整理了各類加速方法，如混合精度訓練、分散式架構與推理引擎建構，還提供跨框架的模型格式轉換範例，涵蓋ONNX、TensorRT等工具鏈整合流程。進一步深入端側學習、IR最佳化與動態Batch記憶體管理等核心技術，並透過cuDNN、MKLDNN、CUDA與Vulkan等元件展示運算元優化的具體實作。本書最大特點是涵蓋理論與部署細節，並以DeepSeek-V3為案例展現整體技術鏈條如何協同降本增效。對於實際從事大模型研發、推理部署或系統最佳化的工程人員而言，是一本兼顧理論深度與實務操作的實用指南。

作者簡介

梁志遠 博士

畢業於北京航空航天大學。長期從事人工智慧、大語言模型的開發，專注於深度學習、自然語言處理、數據分析與智慧決策等領域。主持或參與多項科學研究計畫，涵蓋模型訓練最佳化、知識蒸餾、自動推理與多模態學習等方向。致力於推動人工智慧技術在工業應用、智慧互動與數據驅動的實踐與發展。

▌第一部分 大模型概述與核心最佳化技術

►第1章 大模型基本概念

1.1 大模型的興起與發展

1.1.1 大規模神經網路

1.1.2 Transformer 編碼器－解碼器

1.1.3 MoE 架構

1.2 運算資源與性能瓶頸

1.2.1 GPU 簡介

1.2.2 TPU 簡介

1.2.3 網路頻寬約束與分散式訓練

1.2.4 大模型的訓練時間與運算資源消耗問題

1.3 資料與隱私問題

1.3.1 急劇增加的資料量

1.3.2 資料隱私保護與符合規範性

1.4 模型部署與運行維護

1.4.1 模型部署基本概念

1.4.2 雲端運算與邊緣計算

1.4.3 端側部署

1.4.4 大模型執行與維護

1.5 本章小結

1.6 思考題

►第2 章 模型壓縮、訓練與推理

2.1 模型壓縮概述

2.1.1 模型壓縮簡介

2.1.2 常見的模型壓縮方法分類

2.2 訓練加速基礎

2.2.1 資料並行與模型並行

2.2.2 混合精度訓練

2.2.3 分散式訓練框架：Horovod

2.3 推理加速基礎

2.3.1 硬體加速與推理引擎

2.3.2 低延遲與高輸送量平衡

2.3.3 推理最佳化實戰：批次推理

2.4 性能評估指標

2.4.1 計算複雜度與性能指標

2.4.2 延遲、輸送量與精度之間的權衡

2.4.3 評估工具與基準測試

2.5 本章小結

2.6 思考題

►第3 章 模型格式轉換

3.1 模型格式的定義與轉換

3.1.1 常見的模型格式：ONNX、TensorFlow 的SavedModel

3.1.2 模型格式轉換實現

3.1.3 模型的相容性問題

3.2 跨框架模型轉換

3.2.1 TensorFlow 到PyTorch 的模型轉換

3.2.2 ONNX 與TensorFlow、PyTorch 的相容性

3.2.3 轉換時的精度損失問題

3.3 硬體相關的格式轉換

3.3.1 從PyTorch 到TensorRT

3.3.2 ONNX 模型與NVIDIA TensorRT 的相容性

3.3.3 模型格式與硬體加速的關係

3.4 模型格式轉換的工具與函式庫

3.4.1 使用ONNX 進行跨平臺轉換

3.4.2 TensorFlow Lite 與Edge 模型最佳化

3.5 本章小結

3.6 思考題

►第4 章 圖最佳化

4.1 運算子融合技術

4.1.1 運算子融合的原理

4.1.2 典型運算子融合演算法的實現

4.1.3 實驗：運算子融合對推理性能的提升

4.2 布局轉換與最佳化

4.2.1 張量布局的原理

4.2.2 記憶體存取最佳化與布局選擇

4.3 運算子替換技術

4.3.1 用低消耗運算子替換高消耗運算子

4.3.2 常見的運算子替換策略

4.4 顯示記憶體最佳化

4.4.1 顯示記憶體佔用分析與最佳化

4.4.2 梯度檢查點與顯示記憶體共用

4.4.3 動態顯示記憶體分配與記憶體池管理

4.5 本章小結

4.6 思考題

►第5 章 模型壓縮

5.1 量化

5.1.1 定點量化與浮點量化的區別

5.1.2 量化演算法與工具：TensorFlow Lite

5.1.3 量化帶來的精度損失問題

5.2 知識蒸餾

5.2.1 知識蒸餾的基本概念與應用場景

5.2.2 知識蒸餾的損失函式與訓練過程

5.2.3 如何選擇蒸餾－教師網路模型

5.3 剪枝

5.3.1 網路剪枝基本原理

5.3.2 基於權重剪枝與結構化剪枝

5.3.3 剪枝後的精度恢復方案

5.4 二值化與極端壓縮

5.4.1 二值化網路的建構與訓練

5.4.2 二值化對計算與儲存的影響

5.5 本章小結

5.6 思考題

▌第二部分 端側學習與高效計算引擎最佳化

►第6 章 端側學習、端側推理及計算引擎最佳化

6.1 聯邦學習概述

6.1.1 聯邦學習的基本概念與應用

6.1.2 聯邦學習中的隱私保護機制、通訊與聚合演算法

6.2 資料處理與前置處理

6.2.1 資料清洗與增廣技術

6.2.2 資料均衡與過採樣策略

6.2.3 端側資料處理的資源限制

6.3 Trainer 與最佳化器設計

6.3.1 端側訓練的挑戰與策略

6.3.2 高效最佳化器（如SGD、Adam）的選擇

6.3.3 動態調整學習率與訓練過程監控

6.4 損失函式的設計與選擇

6.4.1 常見的損失函式與應用場景

6.4.2 多工學習中的損失函式設計

6.4.3 損失函式的數值穩定性

6.5 Benchmark 設計與性能評估

6.5.1 經典Benchmark 與訂製Benchmark

6.5.2 推理與訓練性能的綜合評估

6.5.3 性能瓶頸的辨識與最佳化

6.6 IR 的作用與最佳化

6.6.1 IR 的定義及作用

6.6.2 IR 轉換與最佳化策略

6.7 Schema 的設計與規範

6.7.1 資料格式與模型介面的設計

6.7.2 資料流程與計算圖的規範化

6.8 動態Batch 與記憶體排程

6.8.1 動態Batch 的選擇與調整

6.8.2 記憶體排程與性能最佳化

6.8.3 最佳化記憶體使用率與減少記憶體溢位

6.9 異質執行與最佳化

6.9.1 GPU 與CPU 的異質計算模式原理

6.9.2 多核心與多節點並行最佳化

6.9.3 異質計算中的任務排程

6.10 裝箱操作與計算圖最佳化

6.10.1 透過裝箱減少計算消耗

6.10.2 裝箱最佳化對計算圖的影響

6.11 本章小結

6.12 思考題

►第7 章 高性能運算子函式庫簡介

7.1 cuDNN 運算子函式庫概述

7.1.1 cuDNN 的主要功能

7.1.2 常用運算子（卷積、池化等）的實現

7.1.3 運算子加速實戰：cuDNN 在深度學習中的應用

7.2 MKLDNN 運算子函式庫概述

7.2.1 MKLDNN 與Intel 硬體的最佳化

7.2.2 MKLDNN 中的高效運算子實現

7.2.3 多核心支援與平行計算最佳化

7.3 運算子函式庫的選擇與性能比較

7.3.1 cuDNN 與MKLDNN 的應用場景對比

7.3.2 在不同硬體平臺上的表現

7.4 運算子函式庫的高效利用

7.4.1 如何選擇合適的運算子函式庫

7.4.2 最佳化運算子函式庫介面與記憶體管理

7.4.3 演算法重構：提高運算子性能

7.5 本章小結

7.6 思考題

▌第三部分 高性能運算子與深度學習框架應用

►第8 章 常用高性能運算子開發實戰

8.1 NEON 與ARM 架構最佳化

8.1.1 NEON 指令集與深度學習加速

8.1.2 ARM 架構上的平行計算最佳化

8.1.3 使用NEON 實現卷積等運算子加速

8.2 CUDA 與GPU 最佳化

8.2.1 CUDA 程式設計模型與記憶體管理

8.2.2 CUDA 串流與核心函式最佳化

8.2.3 高效利用GPU 平行計算資源

8.3 Vulkan 與圖形加速

8.3.1 Vulkan 的低階控制與最佳化

8.3.2 使用Vulkan 進行推理加速

8.3.3 圖形與計算並行加速的結合

8.4 AVX 與OpenCL 的最佳化

8.4.1 AVX 與CPU 最佳化的基本原理

8.4.2 OpenCL 與跨平臺加速

8.5 本章小結

8.6 思考題

►第9 章 TIK、YVM 運算子原理及其應用

9.1 TIK 運算子函式庫的應用

9.1.1 TIK 運算子函式庫與TensorFlow Lite 的整合

9.1.2 使用TIK 進行卷積與矩陣乘法加速

9.2 YVM 運算子函式庫的應用

9.2.1 YVM 在深度學習推理中的高效應用

9.2.2 YVM 的硬體調配與最佳化

9.3 本章小結

9.4 思考題

►第10 章基於DeepSeek-V3 分析大模型訓練降本增效技術

10.1 DeepSeek-V3 架構概述

10.1.1 DeepSeek-V3 的架構設計與創新

10.1.2 模型參數共用與層次結構最佳化

10.2 DeepSeek-V3 的訓練降本技術分析

10.2.1 FP8 精度訓練、混合精度訓練與分散式訓練

10.2.2 動態計算圖

10.2.3 自我調整批次處理與梯度累積技術

10.2.4 Sigmoid 路由機制

10.2.5 無輔助損失負載平衡演算法

10.2.6 DualPipe 演算法

10.2.7 All-to-All 跨節點通訊

10.3 DeepSeek-V3 的推理加速技術

10.3.1 量化與蒸餾在DeepSeek-V3 中的應用

10.3.2 模型壓縮與推理速度提升

10.4 本章小結

10.5 思考題

序

前言

在人工智慧迅猛發展的浪潮中，大規模神經網路模型憑藉其卓越性能，已然成為自然語言處理、電腦視覺等諸多領域的核心競爭力。然而，大模型複雜度與資源需求的急劇膨脹，讓如何在確保精度的同時，大幅削減計算成本、提升部署效率，成為了產業界與學術界共同矚目的焦點。

本書的創作靈感，正是源自業界對於大模型輕量化愈發迫切的需求。近年來，Transformer 和 Mixture of Experts（MoE）等前端架構引領了深度學習的革新潮流，但也帶來了對運算資源的巨額消耗。在此背景下，模型壓縮技術如量化、剪枝和蒸餾應運而生，為破解資源瓶頸提供了有力武器，而工程最佳化策略則進一步夯實了其實踐基礎。本書緊緊圍繞這一主題，全面探討大模型輕量化技術，包括模型壓縮、訓練與推理加速、端側學習與計算引擎最佳化，結合實際案例與工程實現，助力提升大模型的部署效率與計算性能。

本書共分為3 部分：

第1 部分（第1~5 章），主要闡述了大模型輕量化的基本理論。第1 章概述了大模型的興起背景與技術挑戰，以Transformer 與MoE 架構為例，分析其在性能與計算複雜度上的權衡。第2~5 章從理論和實踐出發，探討模型壓縮的多種技術路徑，透過實際案例說明其在提升效率與降低儲存需求方面的具體應用。為幫助讀者深入理解，書中附有精心設計的程式範例和測試資料，驗證模型輕量化的實際效果。

第2 部分（第6、7 章），基於第1 部分的理論沉澱，深入拓展模型輕量化理論，並以程式實踐加以詮釋。在第6 章介紹了端側學習、計算引擎最佳化和資源配置等領域的關鍵技術。端側學習章節特別關注聯邦學習及其在隱私保護中的應用；計算引擎最佳化部分則涵蓋動態Batch 和多副本並行排程等核心技術，解析其在實際部署中的工程困難。第7 章則重點介紹高性能運算子函式庫，為後續運算子開發做好準備。

第3 部分（第8~10 章），重點介紹高性能運算子函式庫及手工運算子的開發，分別以cuDNN、CUDA、Vulkan 等為代表，從理論基礎到實作方式層層深入，闡明運算子最佳化的工程細節。運算子的最佳化在大規模訓練和推理任務中具有決定性作用。最後，以開放原始碼力作DeepSeek-V3 模型為例，完整呈現從模型訓練至推理的輕量化全過程。

本書適合從事大模型開發與最佳化的工程師和研究人員，尤其是對模型壓縮、計算引擎最佳化和高效部署有需求的讀者，旨在為他們提供深入的理論分析與實用的技術實現，幫助其應對大模型應用中的計算瓶頸和資源挑戰。

在本書的撰寫征程中，承蒙許多同行、專家以及學者的慷慨相助與鼎力扶持，在此向每一位提供寶貴意見與鼓勵的朋友致以最崇高的敬意與誠摯的感激。

同時，對參與本書內容研討與案例驗證工作的工程師和團隊表示由衷的感謝。是他們的不懈努力與智慧交融，使本書實現了理論精華與實踐智慧的完美融合，架設起一座通向大模型輕量化核心技術深處的堅實橋樑。

期望本書能夠為讀者們提供有價值的知識與實踐指導，幫助大家在大模型領域取得更大的進展。無論您是衝鋒在大模型開發最前線的工程師，還是深耕於學術研究領域的學者，都希望本書能夠成為您成長與突破的得力幫手，助您在AI 技術的快速發展中不斷探索與創新。

如果讀者在學習本書的過程中遇到問題，可以發送郵件至booksaga@126.com，郵件主題為「大模型輕量化：模型壓縮與訓練加速」。

作者