特價 -20%

完整複習NLP – 圍繞LLM打造自然語言處理應用 DM2571

原始價格:NT$1,080。目前價格:NT$864。

出版商 深智數位股份有限公司
出版日期 2025年09月19日
語言 繁體中文
頁數 640
ISBN 9786267757291

已售完

貨號: DM2571 Categories: ,

描述

內容簡介

☆自然語言處理任務分類與表示方式

☆詞嵌入與文字向量表示方法

☆N 元語言模型與神經語言模型架構

☆NLP 評估指標與效能測量方法

☆基礎工具:NLTK、LTP、tiktoken、PyTorch

☆卷積、循環、Transformer 等神經網路模型

☆靜態與動態預訓練詞向量模型

☆Decoder、Encoder、Encoder-Decoder 預訓練架構

☆BERT、GPT、T5 等主流語言模型解析

☆微調技術:指令資料、序列任務、生成任務

☆大語言模型訓練策略與位置編碼機制

☆提示工程、多工訓練與強化學習調配方法

☆模型壓縮、量化與高效部署技術

☆多語言、多模態與程式預訓練模型實作

 

【內容簡介】

本書共分三部分、十三章,系統介紹自然語言處理與預訓練語言模型的技術發展與應用。

第一部分為基礎知識,涵蓋 NLP 任務分類、詞嵌入表示法、模型評估指標、NLTK 與 LTP 工具、PyTorch 使用方法與常見資料集,並介紹 MLP、CNN、RNN 與 Transformer 模型及其實作。

第二部分為預訓練語言模型,涵蓋 N-gram、神經語言模型與語言模型評估方式,靜態與動態詞向量模型如 Word2Vec 與 ELMo,以及 BERT、GPT、T5 等主流模型的結構與微調策略。

第三部分為大語言模型,從 LLaMA、Mixtral 架構到 FlashAttention、RoPE、LoRA、RLHF 等關鍵技術,再到指令微調、中文調配、模型壓縮與高效部署等流程,並包含多語言、程式語言與多模態模型的延伸應用,最後以 DeepSeek 系列為例總結最新進展。

 

作者簡介

車萬翔

哈爾濱工業大學計算學部長聘教授 / 博士生導師、人工智慧研究院院長、國家級青年人才、龍江學者「青年學者」、史丹佛大學訪問學者。現任中國中文信息學會理事、計算語言學專業委員會副主任兼秘書長;國際計算語言學學會亞太分會(AACL)執委兼秘書長;國際頂級會議ACL 2025程序委員會共同主席。承擔國家自然科學基金重點項目和專項項目、2030「新一代人工智慧」重大項目課題等多項科研項目。曾獲AAAI 2013最佳論文提名獎、黑龍江省科技進步一等獎、黑龍江省青年科技獎等獎勵。

 

目錄

第一部分 基礎知識

1 緒論

1.1 自然語言處理的概念

1.2 自然語言處理的困難

1.3 自然語言處理任務系統

1.3.1 任務層級

1.3.2 任務類別

1.3.3 研究物件與層次

1.4 自然語言處理技術發展歷史

 

2 自然語言處理基礎

2.1 文字的表示

2.1.1 詞的獨熱表示

2.1.2 詞的分佈表示

2.1.3 詞嵌入表示

2.1.4 文字的詞袋表示

2.2 自然語言處理任務

2.2.1 自然語言處理基礎任務

2.2.2 自然語言處理應用任務

2.3 基本問題

2.3.1 文字分類問題

2.3.2 結構預測問題

2.3.3 序列到序列問題

2.4 評價指標

2.4.1 自然語言理解類任務的評價指標

2.4.2 自然語言生成類任務的評價指標

2.5 小結

 

3 基礎工具集與常用資料集

3.1 tiktoken 子詞切分工具

3.2 NLTK 工具集

3.2.1 常用語料庫和詞典資源

3.2.2 常用自然語言處理工具集

3.3 LTP 工具集

3.3.1 中文分詞

3.3.2 其他中文自然語言處理功能

3.4 PyTorch 基礎

3.4.1 張量的基本概念

3.4.2 張量的基本運算

3.4.3 自動微分

3.4.4 調整張量形狀

3.4.5 廣播機制

3.4.6 索引與切片

3.4.7 降維與升維

3.5 大規模預訓練資料集

3.5.1 維基百科資料

3.5.2 原始資料的獲取

3.5.3 語料處理方法

3.5.4 其他文字預訓練資料集

3.5.5 文字預訓練資料集討論

3.6 更多資料集

3.7 小結

 

4 自然語言處理中的神經網路基礎

4.1 多層感知器模型

4.1.1 感知器

4.1.2 線性回歸

4.1.3 Logistic 回歸

4.1.4 Softmax 回歸

4.1.5 多層感知器

4.1.6 模型實現

4.2 卷積神經網路

4.2.1 模型結構

4.2.2 模型實現

4.3 循環神經網路

4.3.1 模型結構

4.3.2 長短時記憶網路

4.3.3 模型實現

4.3.4 基於循環神經網路的序列到序列模型

4.4 Transformer 模型

4.4.1 注意力機制

4.4.2 自注意力模型

4.4.3 Transformer

4.4.4 基於Transformer 的序列到序列模型

4.4.5 Transformer 模型的優缺點

4.4.6 PyTorch 內建模型實現

4.5 神經網路模型的訓練

4.5.1 損失函式

4.5.2 梯度下降

4.6 自然語言處理中的神經網路實戰

4.6.1 情感分類實戰

4.6.2 詞性標注實戰

4.7 小結

 

▌第二部分 預訓練語言模型

 

5 語言模型

5.1 語言模型的基本概念

5.2 N 元語言模型

5.2.1 N 元語言模型的基本概念

5.2.2 N 元語言模型的實現

5.2.3 N 元語言模型的平滑

5.3 神經網路語言模型

5.3.1 前饋神經網路語言模型

5.3.2 循環神經網路語言模型

5.3.3 Transformer 語言模型

5.3.4 基於神經網路語言模型生成文字

5.4 語言模型的實現

5.4.1 資料準備

5.4.2 前饋神經網路語言模型

5.4.3 循環神經網路語言模型

5.4.4 Transformer 語言模型

5.5 語言模型性能評價

5.6 小結

 

6 預訓練詞向量

6.1 預訓練靜態詞向量

6.1.1 基於神經網路語言模型的靜態詞向量預訓練

6.1.2 Word2vec 詞向量

6.1.3 負採樣

6.1.4 GloVe 詞向量

6.1.5 模型實現

6.1.6 評價與應用

6.2 預訓練動態詞向量

6.2.1 雙向語言模型

6.2.2 ELMo 詞向量

6.2.3 模型實現

6.2.4 評價與應用

6.3 小結

 

7 預訓練語言模型

7.1 概述

7.2 Decoder-only 模型

7.2.1 GPT

7.2.2 GPT-2

7.2.3 GPT-3

7.3 Encoder-only 模型

7.3.1 BERT

7.3.2 RoBERTa

7.3.3 ALBERT

7.3.4 ELECTRA

7.3.5 MacBERT

7.3.6 模型對比

7.4 Encoder-Decoder 模型

7.4.1 T5

7.4.2 BART

7.5 預訓練模型的任務微調:NLU 類

7.5.1 單句文字分類

7.5.2 句對文字分類

7.5.3 閱讀理解

7.5.4 序列標注

7.6 預訓練模型的任務微調:NLG 類

7.6.1 文字生成

7.6.2 機器翻譯

7.7 小結

 

▌第三部分 大語言模型

 

8 大語言模型的預訓練

8.1 大語言模型的基本結構

8.1.1 Llama

8.1.2 Mixtral

8.1.3 縮放法則

8.1.4 常見大語言模型對比

8.2 注意力機制的最佳化

8.2.1 稀疏注意力

8.2.2 多查詢注意力與分組查詢注意力

8.2.3 FlashAttention

8.3 位置編碼策略

8.3.1 RoPE

8.3.2 ALiBi

8.4 長上下文處理策略

8.4.1 位置插值法

8.4.2 基於NTK 的方法

8.4.3 LongLoRA

8.4.4 YaRN

8.5 並行訓練策略

8.5.1 資料並行

8.5.2 模型並行

8.5.3 管線並行

8.5.4 混合並行

8.5.5 零容錯最佳化

8.5.6 DeepSpeed

8.6 小結

 

9 大語言模型的調配

9.1 引言

9.2 基於提示的推斷

9.2.1 提示工程

9.2.2 檢索與工具增強

9.3 多工指令微調

9.3.1 現有資料集轉換

9.3.2 自動生成指令資料集

9.3.3 指令微調的實現

9.4 基於人類回饋的強化學習

9.4.1 基於人類回饋的強化學習演算法的原理

9.4.2 基於人類回饋的強化學習演算法的改進

9.4.3 人類偏好資料集

9.5 參數高效精調

9.5.1 LoRA

9.5.2 QLoRA

9.5.3 Adapter

9.5.4 Prefix-tuning

9.5.6 P-tuning

9.5.6 Prompt-tuning

9.6 大語言模型的中文調配

9.6.1 中文詞表擴充

9.6.2 中文增量訓練

9.7 大語言模型壓縮

9.7.1 知識蒸餾

9.7.2 模型裁剪

9.7.3 參數量化

9.8 小結

 

10 大語言模型的應用

10.1 大語言模型的應用範例

10.1.1 知識問答

10.1.2 人機對話

10.1.3 文字摘要

10.1.4 程式生成

10.2 生成指令資料

10.2.1 Self-Instruct

10.2.2 Alpaca

10.2.3 WizardLM

10.3 大語言模型的量化與部署

10.3.1 llama.cpp

10.3.2 transformers

10.3.3 vLLM

10.4 當地語系化開發與應用

10.4.1 LangChain

10.4.2 privateGPT

10.5 工具呼叫與自動化

10.5.1 AutoGPT

10.5.2 HuggingGPT

10.6 小結

 

11 大語言模型的能力評估

11.1 引言

11.2 通用領域及任務評估

11.2.1 語言理解能力

11.2.2 文字生成能力

11.2.3 知識與推理能力

11.3 特定領域及任務評估

11.3.1 數學

11.3.2 程式

11.4 模型對齊能力評估

11.4.1 有用性

11.4.2 無害性

11.4.3 安全性

11.4.4 真實性

11.5 大語言模型的評價方法

11.5.1 評價設置:調配

11.5.2 自動評價方法

11.5.3 人工評價方法

11.5.4 紅隊測試

11.6 小結

 

12 預訓練語言模型的延伸

12.1 多語言預訓練模型

12.1.1 多語言BERT

12.1.2 跨語言預訓練語言模型

12.1.3 多語言預訓練語言模型的應用

12.1.4 大規模多語言模型

12.2 程式預訓練模型

12.2.1 代表性程式預訓練模型

12.2.2 程式預訓練模型的對齊

12.2.3 程式預訓練模型的應用

12.3 多模態預訓練模型

12.3.1 遮罩影像模型

13.3.2 基於對比學習的多模態預訓練模型

12.3.3 圖到文預訓練模型

12.3.4 影像或影片生成

12.4 具身預訓練模型

13.5 小結

 

13 DeepSeek 系列模型原理簡介

13.1 DeepSeek 系列模型概述

13.2 模型架構最佳化

13.2.1 演算法最佳化

13.2.2 基礎設施最佳化

13.3 基於強化學習得推理能力

13.3.1 DeepSeek-R1-Zero:僅透過強化學習得推理能力

13.3.2 DeepSeek-R1:規範性和泛化性

13.3.3 蒸餾: 推理能力的遷移

13.4 小結

 

附錄A

參考文獻

術語表

 

 

前言

自然語言是人類思維的載體和交流的基本工具,也是人類區別於動物的根本標識,更是人類智慧發展的重要外在表現形式。自然語言處理(Natural Language Processing,NLP)主要研究用電腦理解和生成自然語言的各種理論與方法,屬於人工智慧領域的重要的甚至核心的分支。隨著網際網路的快速發展,網路文字規模呈爆炸性增長,對自然語言處理提出了巨大的應用需求。同時,自然語言處理研究也為人們更深刻地理解語言的機制和社會的機制提供了一條重要的途徑,因此具有重要的科學意義。

自然語言處理技術經歷了從早期的理性主義到後來的經驗主義的轉變。近十年來,深度學習技術快速發展,引發了自然語言處理領域的一系列變革。但是基於深度學習的演算法有一個嚴重的缺點,就是過度依賴大規模的有標注資料。2018 年以來,以BERT、GPT 為代表的預訓練語言模型恰好彌補了自然語言處理標注資料不足的缺點,幫助自然語言處理獲得了一系列的突破,包括閱讀理解在內的許多自然語言處理任務的性能都獲得了大幅提高,在有些資料集上甚至達到或超過了人類水準。2022 年底,OpenAI 推出的大語言模型ChatGPT,以其強大的語言理解、生成及知識推理能力,徹底顛覆了自然語言處理領域的格局,成為自然語言處理乃至整個人工智慧領域的統一範式。那麼,預訓練語言模型以及後來的大語言模型是如何獲得如此強大的威力甚至「魔力」的呢?希望本書能夠為各位讀者揭開大語言模型的神秘面紗。

 

本書主要內容

本書在《自然語言處理:基於預訓練模型的方法》(電子工業出版社,2021)一書的基礎上,針對近期自然語言處理領域,尤其是大語言模型方面技術與應用的最新進展,進行了全面的修訂和補充。本書主要內容包括三部分:基礎知識、預訓練語言模型和大語言模型。各部分內容安排如下。

第1部分:基礎知識,包括第1 ∼ 4 章,主要介紹自然語言處理和深度學習的基礎知識、基本工具集和常用資料集。

第2章首先介紹文字的向量表示方法,重點介紹詞嵌入表示。其次介紹自然語言處理的三大任務,包括語言模型、基礎任務和應用任務。雖然這些任務看似紛繁複雜,但是基本可以歸納為三類問題,即文字分類問題、結構預測問題和序列到序列問題。最後介紹自然語言處理任務的評價方法。

第3章首先介紹三種常用的自然語言處理基礎工具集——tiktoken、NLTK和LTP。其次介紹本書使用的深度學習框架PyTorch。最後介紹自然語言處理中常用的大規模預訓練資料。

第4章首先介紹自然語言處理中常用的四種神經網路模型:多層感知器模型、卷積神經網路、循環神經網路和以Transformer 為代表的自注意力模型。其次介紹模型的參數最佳化方法。最後透過兩個綜合性的實戰專案,介紹如何使用深度學習模型解決一個實際的自然語言處理問題。

第2部分:預訓練語言模型,包括第5 ∼ 7 章,主要介紹語言模型、預訓練詞向量以及預訓練語言模型的實現方法及應用。

第5章首先介紹語言模型的基本概念,其次介紹經典的N 元語言模型及現代的神經網路語言模型的概念和實現方法,最後介紹語言模型的評價方法。

第6章介紹詞向量的基本概念,以及靜態詞向量和動態詞向量兩類預訓練詞向量的方法及其在自然語言處理任務中的應用。

第7章首先介紹基於大規模文字預訓練的語言模型,其次重點介紹預訓練語言模型的三種基本結構及代表性的預訓練語言模型,最後介紹預訓練語言模型的應用場景和方法。

第3部分:大語言模型,包括第8 ∼ 13 章,首先介紹大語言模型的預訓練方法,其次介紹大語言模型的調配、應用及評估方法,最後介紹基於預訓練語言模型思想的各種延伸技術。

第8章首先以幾種經典的開放原始碼大語言模型為例,介紹大語言模型的兩種基本結構,其次介紹大語言模型預訓練過程中的若干關鍵技術,最後介紹大語言模型的並行訓練策略。

第9章介紹在將大語言模型應用於具體的現實任務或領域時所需的調配技術,包括基於提示的推斷、多工指令微調、基於人類回饋的強化學習、典型的參數高效精調方法、模型壓縮方法,以及大語言模型的中文調配方法等。

第10章介紹如何將大語言模型有效應用於各種應用場景,包括在常見任務中的應用方法、利用大語言模型生成指令資料以用於大語言模型的精調、大語言模型的量化與部署、當地語系化開發與應用、利用大語言模型進行工具呼叫及實現自動化等方法。

第11章介紹大語言模型的能力評估方法,包括通用領域及任務評估、特定領域及任務評估、模型對齊能力評估、大語言模型的評價方法等。

第12章介紹預訓練語言模型的延伸技術,包括多語言的預訓練模型及其在跨語言任務上的應用、程式預訓練模型、多模態預訓練模型,以及基於大語言模型實現的具身預訓練模型。

第13章以DeepSeek 系列模型為例,介紹大語言模型的最新技術進展,包括DeepSeek 系列模型的技術原理、模型架構最佳化和基於強化學習獲得的推理能力學習等。

 

▌致謝

本書第1 ∼ 5章及第12章由哈爾濱工業大學車萬翔教授撰寫;第6、11章由美國麻省理工學院(MIT)郭江博士後撰寫;第7、8、10 章由科大訊飛北京研究院副院長崔一鳴撰寫;第9 章及第13 章由三位作者聯合撰寫。全書由哈爾濱工業大學劉挺教授主審。

本書的撰寫參閱了大量的著作和相關文獻,在此一併表示衷心的感謝!

感謝宋亞東先生和電子工業出版社博文視點對本書的重視,以及為本書出版所做的一切。

由於作者水準有限,書中不足及錯誤之處在所難免,敬請專家和讀者給予批評指正。

車萬翔

 

額外資訊

出版商

深智數位股份有限公司

出版日期

2025年09月19日

語言

繁體中文

頁數

640

ISBN

9786267757291