特價 -20%

Sutskever 大神推薦 – 建構AI世界最重要的30篇論文:用PyTorch完整實作 DM2618

原始價格:NT$1,080。目前價格:NT$864。

出版商 深智數位股份有限公司
出版日期 2026年03月19日
語言 繁體中文
頁數 880
ISBN 9786267757956

已售完

貨號: DM2618 Categories: ,

描述

內容簡介

用 PyTorch、NumPy、Google Colab T4 GPU 最強工具

完整實作 Perceptron、CNN、RNN、Transformer、GPT、RLHF 等經典論文

 

* Perceptron / MLP / Backpropagation / CNN / RNN / LSTM 精選論文實作

* 超過 30 個完整 Jupyter Notebook 重現論文過程

* 最棒的學習路徑,從 1958 到 2022,一次掌握 64 年 AI 發展史

* 串接 Google Colab 免費 GPU,無限制的運算資源,還有 T4 加速

* 用 PyTorch 撰寫 Attention、Transformer、BERT

* 實作 AlphaGo,5 分鐘搞懂蒙地卡羅樹搜尋,自己幫你跑完整局棋

* 快速寫出 Visual Transformer 完整實作

 

快點上手全世界最強 AI 研究者的必讀論文,從此不用再苦苦爬 arXiv,不用再嫌自己看不懂數學,只要會寫程式。讓 PyTorch 帶你用 Vibe Coding 以百倍速度把論文變成能跑的程式碼。本書從入門到實戰,一路扶持你成為能駕馭 AI 論文的開發者。

 

從設定 Google Colab 環境與啟用 T4 GPU,熟悉 PyTorch 張量操作,活用 Perceptron、MLP、Backpropagation、Dropout、BatchNorm,立即感受大神們在完成論文的開心!

 

包括使用 CNN 做影像辨識,使用 Word2Vec 做詞嵌入,使用 RNN 和 LSTM 處理序列資料,使用 Seq2Seq 做機器翻譯,當然還有使用 Attention 機制,重現歷史的重要 AI 時刻。

 

掌握 Transformer 的關鍵思維,了解 BERT 與 GPT 的預訓練威力,結合 Decoder-Only 架構,不用再摸索無盡的論文海,不用再埋頭苦讀上百頁英文的官方文件,直接就動手做了

 

用 VAE 精準生成,了解 AI 最愛看的 GAN 生成對抗網路,使用 ResNet 建立一個 AI 專用的殘差連接流程,從零打造 Batch Normalization;再進一步實作 DQN 強化學習與 AlphaGo 蒙地卡羅樹搜尋策略,最後用 InstructGPT 與 RLHF,Dall-E、Stable Diffusion、Visual Transformer,了解 AI 圖片產生的原理。

 

作者簡介

胡嘉璽

研究領域為 LLM、Vibe Coding、Agent、量子電腦、虛擬化及容器。

聯絡方式:github/joshhu

 

目錄

0 本書執行環境設定

0.1 前言

0.2 為什麼選擇這個環境?

0.3 環境需求

0.4 安裝步驟

0.5 常見問題排解

0.6 本書程式碼結構

0.7 執行建議

0.8 開始學習

 

1 複雜動力學第一定律

1.1 為什麼這篇文章重要?

1.2 從一杯咖啡說起

1.3 熵與複雜度:兩個不同的概念

1.4 Kolmogorov 複雜度:用程式長度衡量複雜性

1.5 精密度:捕捉「有意義的」複雜性

1.6 細胞自動機:複雜性的實驗室

1.7 程式碼解析:PyTorch 實作

1.8 與深度學習的深層關聯

1.9 實驗:親手驗證

1.10 思考題

1.11 本章小結

 

2 循環神經網路的不合理有效性

2.1 為什麼這篇文章重要?

2.2 從一個簡單的問題開始

2.3 循環神經網路 (RNN) 的核心思想

2.4 展開的RNN:理解時間維度

2.5 字元級語言模型

2.6 反向傳播穿越時間 (BPTT)

2.7 梯度問題與解決方案

2.8 從隨機到莎士比亞

2.9 其他驚人的應用

2.10 採樣策略:溫度參數

2.11 程式碼解析:關鍵實作細節

2.12 與現代語言模型的關係

2.13 實驗:親手訓練一個字元級RNN

2.14 思考題

2.15 本章小結

 

3 理解LSTM 網路

3.1 為什麼需要LSTM ?

3.2 梯度消失問題

3.3 LSTM 的解決方案:門控機制

3.4 LSTM 的數學公式

3.5 為什麼LSTM 能解決梯度消失?

3.6 用例子理解 LSTM

3.7 LSTM vs Vanilla RNN:梯度流動對比

3.8 程式碼解析:LSTM Cell 實作

3.9 門的視覺化解讀

3.10 LSTM 的反向傳播

3.11 LSTM 的變體

3.11 實際應用

3.12 LSTM 的局限性與 Transformer

3.13 思考題

3.14 本章小結

 

4 循環神經網路的正規化

4.1 引言:RNN 的過擬合問題

4.2 問題:天真地將Dropout 應用於RNN 不管用!

4.3 Zaremba 等人的解決方案

4.4 變分 Dropout(Variational Dropout)

4.5 進階技術:其他 RNN 正規化方法

4.6 深入理解:為什麼位置很重要?

4.7 實驗結果

4.8 PyTorch 實作要點

4.9 完整實作:帶Dropout 的LSTM 語言模型

4.10 實驗分析與視覺化

4.11 常見問題與解決方案

4.12 與後續研究的關係

4.13 思考題

4.14 總結

 

5 透過最小化描述長度保持神經網路簡單

5.1 引言:為什麼簡單的模型更好?

5.2 最小描述長度(MDL)原則

5.3 網路剪枝(Network Pruning)

5.4 漸進式剪枝(Iterative Pruning)

5.5 結構化剪枝vs 非結構化剪枝

5.6 與L1 正規化的關係

5.7 彩票假說(Lottery Ticket Hypothesis)

5.8 現代剪枝技術

5.9 PyTorch 實作要點

5.10 完整實作:PyTorch 剪枝流程

5.11 實際應用案例

5.12 思考題

5.13 總結

 

6 指標網路 (Pointer Networks)

6.1 引言

6.2 問題定義

6.3 模型架構

6.4 數學推導

6.5 實作細節

6.6 訓練策略

6.7 應用:凸包問題

6.8 應用:旅行推銷員問題

6.9 應用:排序任務

6.10 進階技術

6.11 實驗結果分析

6.12 與後續研究的關係

6.13 視覺化與解釋

6.14 常見問題與解決方案

6.15 完整實作範例

6.16 思考題

6.17 延伸閱讀

6.18 本章小結

 

7 AlexNet 深度學習革命的起點

7.1 引言

7.2 ImageNet 挑戰賽

7.3 AlexNet 架構

7.4 關鍵創新技術

7.5 資料增強

7.6 訓練細節

7.7 PyTorch 實作

7.8 視覺化分析

7.9 實驗與結果分析

7.10 資料增強實作

7.11 與後續網路的比較

7.12 現代視角

7.13 常見問題與解決方案

7.14 思考題

7.15 延伸閱讀

7.16 本章小結

 

8 順序很重要 序列對序列(Sequence-to-Sequence) 處理集合

8.1 引言

8.2 排列不變性

8.3 讀取- 處理- 寫入架構

8.4 輸出順序問題

8.5 應用場景

8.6 注意力機制詳解

8.7 與DeepSets 的關係

8.8 完整模型實作

8.9 實驗結果

8.10 與其他論文的關聯

8.11 進階技術

8.12 常見問題與解決方案

8.13 思考題

8.14 延伸閱讀

8.15 本章小結

 

9 GPipe 使用管線平行化高效訓練巨型神經網路

9.1 論文背景與動機

9.2 管線平行化的核心概念

9.3 微批次策略

9.4 梯度累積

9.5 重新實體化技術

9.6 實作細節

9.7 與資料平行化的比較

9.8 氣泡時間的視覺化

9.9 記憶體與計算的權衡

9.10 進階排程策略

9.11 實際應用與成果

9.12 PyTorch 實作要點

9.13 最佳化建議

9.14 現代擴展技術

9.15 相關論文連結

9.16 總結

9.17 數學推導補充

9.18 常見問題與解決方案

9.19 程式碼範例:完整訓練迴圈

9.20 效能基準參考

 

10 ResNet 深度殘差學習

10.1 引言

10.2 論文資訊

10.3 退化問題的本質

10.4 殘差學習的核心思想

10.5 殘差區塊的設計

10.6 跳躍連接的數學分析

10.7 ResNet 架構變體

10.8 批次正規化的角色

10.9 實作細節

10.10 PyTorch 完整實作

10.11 梯度流動實驗

10.12 視覺化分析

10.13 ResNet 的影響與變體

10.14 訓練技巧

10.15 消融實驗

10.16 與其他架構的比較

10.17 實際應用建議

10.18 數學補充

10.19 常見問題

10.20 總結

 

11 膨脹卷積 多尺度上下文聚合

11.1 引言

11.2 論文資訊

11.3 密集預測的挑戰

11.4 膨脹卷積的核心思想

11.5 多尺度上下文聚合

11.6 數學分析

11.7 PyTorch 實作

11.8 完整分割網路

11.9 一維膨脹卷積

11.10 感受野視覺化

11.11 網格效應問題

11.12 與其他技術的結合

11.13 應用場景

11.14 效能比較

11.15 實作細節

11.16 常見問題

11.17 延伸閱讀

11.18 總結

 

12 訊息傳遞神經網路圖神經網路的統一框架

12.1 論文資訊

12.2 歷史背景與重要性

12.3 核心思想

12.4 數學框架

12.5 統一現有方法

12.6 實作細節

12.7 與 GCN 的比較

12.8 應用:量子化學性質預測

12.9 過度平滑問題

12.10 表達能力分析

12.11 圖級別讀出

12.12 現代發展

12.13 實際應用

12.14 程式碼實作重點

12.15 關鍵公式總結

12.16 總結

12.17 進階主題:批次處理與效率

12.18 進階主題:多關係圖

12.19 進階主題:圖生成

12.20 進階主題:可解釋性

12.21 常見錯誤與陷阱

12.22 實作檢查清單

12.23 論文連結

 

13 Transformer 注意力就是你所需要的

13.1 論文資訊

13.2 歷史背景與重要性

13.3 核心思想

13.4 數學框架

13.5 多頭注意力(Multi-Head Attention)

13.6 位置編碼(Positional Encoding)

13.7 前饋網路(Feed-Forward Network)

13.8 層正規化(Layer Normalization)

13.9 完整 Transformer 架構

13.10 注意力的三種用途

13.11 訓練細節

13.12 計算複雜度分析

13.13 架構變體

13.14 現代改進

13.15 視覺化理解

13.16 實作要點

13.17 與其他架構的比較

13.18 影響與後續發展

13.19 關鍵公式總結

13.20 總結

13.21 深入理解:為什麼 Transformer 能成功?

13.22 實作細節探討

13.23 常見問題與解答

13.24 從零實作的檢查清單

13.25 延伸閱讀建議

13.26 思考題

13.27 論文連結

 

14 Bahdanau 注意力機制- 神經機器翻譯的突破

14.1 論文資訊

14.2 歷史背景與重要性

14.3 問題背景:固定長度向量的瓶頸

14.4 核心思想:注意力機制

14.5 數學框架

14.6 與傳統 Seq2Seq 的比較

14.7 實驗結果

14.8 注意力的類型

14.9 深入理解:為什麼注意力有效?

14.10 實作細節

14.11 注意力的視覺化與解釋

14.12 雙向 RNN 的作用

14.13 超越機器翻譯

14.14 從 Bahdanau 到 Transformer

14.15 常見問題

14.16 實作要點

14.17 總結

14.18 深入分析:注意力的數學性質

14.19 進階主題:注意力變體

14.20 實作進階技巧

14.21 與現代架構的連結

14.22 思考題

14.23 延伸閱讀

14.24 論文連結

 

15 深度殘差網路中的恆等映射

15.1 論文資訊

15.2 歷史背景與重要性

15.3 問題回顧:為什麼需要殘差連接?

15.4 原始 ResNet 塊的問題

15.5 解決方案:預活化殘差塊

15.6 數學分析

15.7 各種架構變體的比較

15.8 實驗結果

15.9 為什麼預活化有效?

15.10 實作要點

15.11 與其他技術的關係

15.12 直覺理解

15.13 常見問題

15.14 超深網路的挑戰

15.15 現代視角

15.16 總結

15.17 延伸閱讀

15.18 深入分析:恆等映射的理論基礎

15.19 進階實作技巧

15.20 實驗細節與技巧

15.21 思考題

15.22 常見錯誤與陷阱

15.23 論文連結

 

16 關係網路 讓神經網路學會推理

16.1 引言

16.2 論文資訊

16.3 傳統方法的困境

16.4 關係網路的核心思想

16.5 為什麼這樣設計有效?

16.6 排列不變性

16.7 與其他架構的比較

16.8 Sort-of-CLEVR 資料集

16.9 實驗結果

16.10 視覺問答的完整流程

16.11 PyTorch 實作

16.12 座標編碼的重要性

16.13 實驗:排列不變性驗證

16.14 Sort-of-CLEVR 完整實作

16.15 文字推理:bAbI 任務

16.16 物理預測任務

16.17 訓練技巧

16.18 計算效率優化

16.19 與後續工作的關係

16.20 常見問題與解答

16.21 實作檢查清單

16.22 延伸閱讀

16.23 總結

 

17 變分自編碼器 深度學習遇見貝葉斯推論

17.1 引言

17.2 論文資訊

17.3 從自編碼器到變分自編碼器

17.4 數學基礎

17.5 重參數化技巧

17.6 VAE 架構

17.7 KL 散度的閉式解

17.8 訓練過程

17.9 潛在空間的性質

17.10 生成新樣本

17.11 PyTorch 完整實作

17.12 卷積VAE

17.13 後驗崩塌問題

17.14 VAE 的變體

17.15 應用場景

17.16 與其他生成模型的比較

17.17 實驗:MNIST VAE

17.18 常見問題與解答

17.19 延伸閱讀

17.20 實作檢查清單

17.21 總結

 

18 Relational RNN 關係型循環神經網路

18.1 引言

18.2 論文資訊

18.3 核心概念:從記憶到關係

18.4 架構詳解

18.5 數學推導

18.6 關鍵創新點

18.7 實驗結果分析

18.8 實作考量

18.9 與其他方法的比較

18.10 程式碼架構說明

18.11 深入理解:為什麼記憶槽之間需要交互?

18.12 訓練技巧與最佳實踐

18.13 常見問題與解決方案

18.14 進階變體與擴展

18.15 與現代架構的比較

18.16 延伸閱讀與展望

18.17 本章小結

 

19 咖啡自動機與不可逆性的奧秘

19.1 引言

19.2 論文資訊

19.3 核心概念:不可逆性的謎題

19.4 擴散過程與熵增加

19.5 相空間與Liouville 定理

19.6 Poincaré 回歸

19.7 Maxwell 妖精

19.8 Landauer 原理

19.9 計算不可逆性

19.10 資訊瓶頸與機器學習

19.11 時間箭頭的三種形式

19.12 生命與熱力學第二定律

19.13 不可逆性的層次

19.14 數學推導

19.15 實作要點

19.16 深層意義

19.17 延伸閱讀

19.18 本章小結

 

20 神經圖靈機 可微分的通用計算

20.1 引言

20.2 論文資訊

20.3 從圖靈機到神經圖靈機

20.4 記憶體定址機制

20.5 讀寫操作

20.6 控制器架構

20.7 完整的NTM 架構

20.8 訓練與任務

20.9 視覺化分析

20.10 與其他架構的比較

20.11 NTM 的後續發展

20.12 實作挑戰與技巧

20.13 應用場景

20.14 與第十六章的關聯

20.15 數學基礎:為什麼這些操作是可微分的?

20.16 程式碼實作要點

20.17 總結

 

21 Deep Speech 2 CTC —端到端語音辨識的突破

21.1 引言

21.2 論文資訊

21.3 CTC 的起源與核心問題

21.4 CTC 的數學原理

21.5 CTC 的實作

21.6 Deep Speech 2 架構

21.7 CTC 解碼

21.8 訓練技巧

21.9 實驗結果與分析

21.10 CTC 的局限性

21.11 後續發展

21.12 與其他章節的關聯

21.13 應用與影響

21.14 程式碼實作要點

21.15 總結

 

22 Scaling Laws for Neural Language Models 神經語言模型的縮放定律

22.1 引言:從經驗到定律

22.2 論文資訊

22.3 什麼是冪律關係

22.4 歷史背景:大模型時代的來臨

22.5 核心發現:三大冪律關係

22.6 數學框架:統一的損失預測模型

22.7 實驗設計:系統性的驗證方法

22.8 冪律的物理直覺

22.9 實作:冪律擬合與預測

22.10 架構變化的影響

22.11 遷移學習與微調

22.12 計算效率與實踐考量

22.13 後續發展:Chinchilla 定律

22.14 湧現能力與相變

22.15 資料質量與縮放定律

22.16 多模態縮放定律

22.17 縮放定律的局限性

22.18 實作:縮放定律實驗框架

22.19 與其他AI 領域的連結

22.20 縮放定律的哲學意涵

22.21 總結:預測AI 的未來

 

23 GPT-3 語言模型是少樣本學習者

23.1 引言:大型語言模型的里程碑

23.2 從GPT 到GPT-3:進化之路

23.3 模型架構:巨型Transformer

23.4 訓練資料與方法

23.5 上下文學習:少樣本學習的新範式

23.6 實驗結果:全面的能力評估

23.7 文本生成:令人印象深刻的創作能力

23.8 分析:縮放定律的驗證

23.9 技術實作細節

23.10 社會影響與倫理考量

23.11 與其他模型的比較

23.12 後續發展與影響

23.13 實作考量

23.14 數學基礎:語言建模

23.15 與前一章的連結:縮放定律的實現

23.16 批評與反思

23.17 實作:簡化版GPT 的關鍵組件

23.18 未來展望

23.19 總結

 

24 Vision Transformer 影像也是一種語言

24.1 引言:當Transformer 遇見電腦視覺

24.2 從CNN 到Transformer:視覺模型的演進

24.3 Vision Transformer 的核心思想

24.4 ViT 架構詳解

24.5 模型配置與規模

24.6 訓練策略與資料需求

24.7 關鍵實驗結果

24.8 視覺化分析:ViT 學到了什麼?

24.9 與CNN 的深入比較

24.10 計算效率分析

24.11 ViT 的影響與後續發展

24.12 PyTorch 實作重點

24.13 實作注意事項

24.14 常見問題與解答

24.15 程式碼實作

24.16 延伸閱讀

24.17 實驗復現技巧

24.18 ViT 的數學推導補充

24.19 ViT 變體深入分析

24.20 本章總結

24.21 關鍵術語中英對照

24.22 論文連結

 

25 DDPM 擴散模型的奠基之作

25.1 引言:生成模型的新範式

25.2 論文資訊

25.3 擴散模型的歷史背景

25.4 前向擴散過程

25.5 反向去噪過程

25.6 訓練目標推導

25.7 採樣演算法

25.8 神經網路架構

25.9 訓練細節

25.10 實驗結果

25.11 與其他生成模型的比較

25.12 數學推導補充

25.13 程式碼實作重點

25.14 DDPM 的局限性

25.15 DDPM 的後續發展

25.16 物理直覺與視覺化

25.17 程式碼實作

25.18 延伸閱讀

25.19 本章總結

25.20 實作技巧與常見問題

25.21 DDPM 與Score-based Models 的聯繫

25.22 進階主題

25.23 關鍵數據回顧

25.24 關鍵術語中英對照

25.25 論文連結

 

26 CLIP 連接視覺與語言的橋樑

26.1 引言:從專家系統到通用視覺模型

26.2 論文資訊:多模態學習的基石

26.3 研究背景與動機

26.4 CLIP 的核心方法

26.5 模型架構

26.6 零樣本分類

26.7 實驗結果

26.8 CLIP 的能力與局限

26.9 對比學習的數學原理

26.10 訓練細節

26.11 CLIP 的應用

26.12 程式碼實作重點

26.13 CLIP 的變體與改進

26.14 CLIP 的社會影響

26.15 CLIP 的歷史意義

26.16 程式碼實作

26.17 延伸閱讀

26.18 本章總結

26.19 實作技巧與常見問題

26.20 與其他多模態模型的比較

 

27 AlphaFold 2 解開生命的摺紙之謎

27.1 引言:五十年的科學難題

27.2 論文資訊:跨世紀難題的解答

27.3 蛋白質摺疊問題的背景

27.4 AlphaFold 2 的突破

27.5 AlphaFold 2 的架構

27.6 輸入特徵

27.7 Evoformer:核心創新

27.8 Structure Module

27.9 Recycling 機制

27.10 損失函式

27.11 訓練細節

27.12 實驗結果

27.13 AlphaFold 的影響

27.14 AlphaFold 2 的局限性

27.15 後續發展

27.16 程式碼實作重點

27.17 程式碼實作

27.18 實作注意事項

27.19 延伸閱讀

27.20 蛋白質結構預測的歷史回顧

27.21 本章總結

27.22 關鍵術語中英對照

27.23 論文連結

 

28 DALL-E 文字到圖像的零樣本生成

28.1 引言:當語言模型學會畫畫

28.2 論文資訊:零樣本生成的開端

28.3 DALL-E 之前的文字到圖像生成

28.4 核心思想:自迴歸生成

28.5 模型架構總覽

28.6 第一階段:離散VAE(dVAE)

28.7 第二階段:自迴歸Transformer

28.8 訓練流程

28.9 推論流程

28.10 零樣本能力展示

28.11 實作要點

28.12 與其他方法的比較

28.13 技術挑戰與解決方案

28.14 應用場景

28.15 局限性

28.16 實作建議

28.17 實作提示

28.18 延伸閱讀

28.19 歷史意義

28.20 本章總結

28.21 關鍵術語中英對照

28.22 論文連結

 

29 Stable Diffusion 潛在空間中的擴散模型

29.1 論文資訊:開源影像生成的基準

29.2 從像素擴散到潛在擴散

29.3 模型架構總覽

29.4 第一階段:感知壓縮模型

29.5 第二階段:潛在擴散模型

29.6 條件機制:Cross-Attention

29.7 Classifier-Free Guidance

29.8 訓練流程

29.9 採樣方法

29.10 完整推論流程

29.11 實作要點

29.12 應用場景

29.13 Stable Diffusion 的版本演進

29.14 技術挑戰與解決方案

29.15 與其他方法的比較

29.16 實作建議

29.17 延伸閱讀

29.18 開源生態系統

29.19 本章總結

29.20 關鍵術語中英對照

29.21 論文連結

 

30 InstructGPT 用人類回饋對齊語言模型

30.1 引言:讓AI 理解人類意圖

30.2 論文資訊:AI 對齊的里程碑

30.3 問題背景:為什麼需要對齊?

30.4 RLHF 方法總覽

30.5 階段一:監督式微調(SFT)

30.6 階段二:獎勵模型訓練(RM)

30.7 階段三:PPO 強化學習

30.8 人類標註指南

30.9 實驗結果

30.10 實作要點

30.11 RLHF 的挑戰與解決方案

30.12 後續發展

30.13 RLHF 的廣泛影響

30.14 實作建議

30.15 延伸閱讀

30.16 RLHF 與傳統強化學習的差異

30.17 本章總結

30.18 關鍵術語中英對照

30.19 論文連結

 

後記:站在巨人的肩膀上

 

§

2020 年,兩個大神之間的一段對話在矽谷傳開了。

傳奇遊戲程式設計師John Carmack,《毀滅戰士DOOM》、《雷神之鎚Quake》的創造者,決定轉向AI 領域。他向OpenAI 的共同創辦人兼首席科學家Ilya Sutskever 請教:「如果要真正理解深度學習,我應該讀什麼?」

Ilya 沒有推薦任何一本教科書。

他給了Carmack 一份論文清單,大約30 篇他認為最重要的論文。Ilya 說:「如果你真的學會這些,你就會了解現在這個AI 世界90% 在搞什麼。」

這份清單後來被稱為「Ilya 30u30」(Ilya's 30 papers under 30 hours),在AI 社群中廣為流傳。它不是按照時間排序的歷史回顧,而是一位站在領域最前沿的研究者,精心挑選出他認為對理解現代AI「真正重要」的思想結晶。

 

為什麼是這30 篇?

當我第一次看到這份清單時,我被它的選擇邏輯深深吸引。

Ilya 沒有選擇那些「歷史上重要」但現在已經過時的論文。他選的每一篇,都是構建現代深度學習大廈的承重牆,移除任何一塊,整棟建築就會倒塌。

從1958 年Rosenblatt 的Perceptron,到2017 年的Transformer;從反向傳播的數學推導,到AlphaGo 的蒙地卡羅樹搜尋;從LSTM 的門控機制,到GPT的自監督預訓練,這30 篇論文串起了一條清晰的思想脈絡。

更重要的是,這份清單反映了Ilya 本人的研究品味。作為Geoffrey Hinton的學生、AlexNet 的共同作者、GPT 系列的幕後推手,Ilya 的選擇代表了一種特殊的視角:什麼樣的想法能夠經受時間的考驗,並持續影響未來的研究方向?

 

這本書的目標

理解一篇論文,最好的方式就是實作它。

這本書的目標很簡單:用PyTorch 和NumPy 手刻這30 篇論文的核心演算法。不是呼叫現成的函式庫,而是從零開始,一行一行地寫出來。

每一章對應一篇論文。我們會:

• 解釋論文提出的問題和解決思路

• 用程式碼實作核心演算法

• 用視覺化幫助理解關鍵概念

• 討論這個想法如何影響後續發展

這不是一本理論教科書,也不是一本API 使用手冊。這是一本動手做的書。

每一章的Jupyter Notebook 都可以在Google Colab 上直接執行,讓你親眼看到演算法如何運作。

 

給讀者的話

如果你是AI 初學者,這本書會給你一個獨特的學習路徑,不是從教科書的抽象定義開始,而是從改變歷史的真實論文開始。你會看到每個偉大想法誕生時的原始形態,而不是被後人簡化和標準化後的版本。

如果你已經有一定基礎,這本書會幫助你填補知識的空白。很多人會用Transformer,但不一定讀過原始論文;很多人聽過LSTM,但不一定理解為什麼需要遺忘門。回到源頭,往往能帶來意想不到的洞見。

如果你是資深從業者,這本書可以作為一份參考手冊。當你需要快速回顧某個經典演算法的細節時,對應章節的程式碼實作會是最直接的答案。

 

Ilya 的啟示

2023 年11 月,Ilya Sutskever 在OpenAI 的「宮鬥」事件中成為全球焦點。

幾個月後,他離開了自己共同創辦的公司,成立了專注於AI 安全的新公司Safe Superintelligence Inc.(SSI)。而在2026 年,這家公司估值約350 億美元,再加上Ilya 在OpenAI 的股份,他的身價可能超過1000 億美元。

無論AI 的未來走向何方,Ilya 留給我們的這份閱讀清單,記錄了一個時代最重要的思想突破。這30 篇論文,就像30 個路標,標記著人類如何一步步教會機器學習、思考、創造。

現在,讓我們從第一個路標開始。

1958 年,一位名叫Frank Rosenblatt 的心理學家,在康乃爾大學的實驗室裡,創造了第一個能夠「學習」的機器。

他稱之為Perceptron。

胡嘉璽

w/ Claude Cowork

2026 年 2 月

於新北市福隆 Starbucks

額外資訊

出版商

深智數位股份有限公司

出版日期

2026年03月19日

語言

繁體中文

頁數

880

ISBN

9786267757956