描述
本書特色
◎ 一本讓你打下最紮實基礎的機器學習數學書
◎ 理論及實作並重,全盤了解機器學習
內容簡介
本書重點
◎ 一本讓你打下最紮實基礎的機器學習數學書
◎ 理論及實作並重,全盤了解機器學習
◎ 線性、非線性、整合模型說明
◎ 線性回歸怎麼來的,邏輯回歸怎麼走的,正規化
◎ 支援向量機精華,決策樹以及單純貝氏定理
◎ 神經網路及正反向傳播的推導
◎ 整合學習的來龍去脈,隨機森林和提升樹
◎ xgboost極度梯度提升
本書主要內容
學習並精通任何一門學科無外乎要經過四個步驟:它是什麼?它可行嗎?怎麼學它?如何學好它?機器學習也不例外,本書就以這四個步驟來介紹機器學習。
每一章都以通俗的引言開始,吸引讀者;以精美的思維導圖過渡,讓說明想法更清晰;以簡要的歸納結束,讓讀者加強所學的知識。理論和實作相結合,既有嚴謹的數學推導,又有多樣(Python 和MATLAB)的程式展示,圖文並茂。
前3 章屬於機器學習的概述。作者在這3 章花費的時間最多,絕對讓讀者有所收穫。
第4~14 章介紹「如何學好機器學習」,重點介紹機器學習的各種演算法和調參技巧。
第1章「機器學習是什麼」,從定義開始,詳細介紹機器學習有關的知識、資料和效能度量。
第2章「機器學習可行嗎」,介紹機器具備學習樣本以外的資料的能力。
第3章「機器學習怎麼學」,介紹機器如何選擇出最佳模型。
第4~8章 介紹線性模型,包含線性回歸模型、對率回歸模型、正規化回歸模型、支援向量機模型。
第9~11章 介紹非線性模型,包含單純貝氏模型、決策樹模型、類神經網路模型、正向/反向傳播模型。
第12~14章 介紹整合模型,包含隨機森林模型、提升樹模型、極度梯度提升模型。
第15章 介紹機器學習中的一些非常實用的經驗,包括學習策略、目標設定、誤差分析、偏差和方差分析。
適合讀者群:機器學習初學者、對機器學習感興趣者,或大專院校相關科系學生。
作者簡介
王聖元
金融風險管理師;特許另類投資分析師。
學習及工作經歷:現任新加坡某金融諮詢公司總監。擁有新加坡國立大學
量化金融學士學位和金融數學碩士學位。
自我學習過程:獲得金融風險管理師 (FRM) 和特許另類投資分析師 (CAIA)認證,及 Coursera 頒發的機器學習、深度學習和TensorFlow實戰的認證。
平時堅持寫作,是公眾號「王的機器」的主理人,分享了關於金融工程、機器學習和量化投資的文章。
信念:“Yearning for Learning, Leading by Reading, Distilling by Writing.」(多學多讀多寫,終身渴望學習,通過讀書保持領先,通過寫作用心灌輸。)
目錄
前言
01 | 機器學習是什麼--機器學習定義
1.1 資料
1.2 機器學習類別
1.3 效能度量
1.4 歸納
參考資料
02 | 機器學習可行嗎--計算學習理論
2.1 基礎知識
2.2 核心推導
2.3 結論應用
2.4 歸納
參考資料
技術附錄
03 | 機器學習怎麼學--模型評估選擇
3.1 模型評估
3.2 訓練誤差和測試誤差
3.3 驗證誤差和交換驗證誤差
3.4 誤差剖析
3.5 模型選擇
3.6 歸納
參考資料
技術附錄
04 | 線性回歸
4.1 基礎知識
4.2 模型介紹
4.3 歸納
參考資料
05 | 邏輯回歸
5.1 基礎內容
5.2 模型介紹
5.3 歸納
參考資料
06 | 正規化回歸
6.1 基礎知識
6.2 模型介紹
6.3 歸納
參考資料
07 | 支援向量機
7.1 基礎知識
7.2 模型介紹
7.3 歸納
參考資料
技術附錄
08 | 單純貝氏
8.1 基礎知識
8.2 模型介紹
8.3 歸納
參考資料
技術附錄
09 | 決策樹
9.1 基礎知識
9.2 模型介紹
9.3 歸納
參考資料
10 | 類神經網路
10.1 基礎
10.2 模型應用
11 | 正向/反向傳播
11.1 基礎知識
11.2 演算法介紹
11.3 歸納
參考資料
技術附錄
12 | 整合學習
12.1 結合假設
12.2 裝袋法
12.3 提升法
12.4 整合方式
12.5 歸納
參考資料
13 | 隨機森林和提升樹
13.1 基礎知識
13.2 模型介紹
13.3 歸納
參考資料
14 | 極度梯度提升
14.1 基礎知識
14.2 模型介紹
14.3 歸納
參考資料
15 | 本書歸納
15.1 正交策略
15.2 單值評估指標
15.3 偏差和方差
A | 結語
序
前言
作者寫作本書的目的就是用通俗的文字來說明機器學習,最好通俗得如作者在女兒生日時,寫給她的信:
親愛的欣玥:
從2020 年開始,願你:
■ 學習不要死記硬背,避免過擬合;也不要蜻蜓點水,避免欠擬合。
■ 心態像隨機梯度下降一樣,不要過分注重眼前的利益和一時的得失,進而看不清大局而被假象矇騙。
■ 抉擇像隨機森林一樣,各取所長,集思廣益,這樣你才能做出最正確的決定。
■ 操行像自我調整提升一樣,知錯能改,這樣你才能越來越優秀。
■ 說話像奧卡姆剃刀原理一樣,牢記「少就是多」,當一個好的聆聽者。
■ 脾氣不要像梯度爆炸一樣越來越大,也不要像梯度消失一樣沒有,要穩定地敢愛敢恨。
■ 容忍像支援向量機一樣,最大化你的容錯間隔。有一些錯誤是在所難免的,要學會將硬間隔變成軟間隔。
■ 生活像偏差和方差達到最佳點一樣,不偏不倚,不驕不躁。
從2020 年開始,爸爸會
■ 最初輔導你有監督學習。
■ 然後鍛煉你半監督學習。
■ 接著放任你無監督學習。
■ 不斷評估你要增強學習。
當學習到了某個臨界點時,不管外界資源多麼豐富,你的表現一定會趨於穩定,這時必須靠深度學習才能大幅地突破自我,最後獲得遷移學習的能力。
學習並精通一種學科無外乎要經過四個步驟:它是什麼?它可行嗎?怎麼學它?
如何學好它?學習機器學習也不例外,本書就以這四個步驟來解讀機器學習。
◆ 第1 章介紹「機器學習是什麼」,即從定義開始,詳細介紹機器學習有關的知識、資料和效能度量。
◆ 第2 章介紹「機器學習可行嗎」,即機器具備學習樣本以外的資料的能力。
本章從機率的角度證明樣本內誤差和樣本外誤差的關係。
◆ 第3 章介紹「機器學習怎麼學」,即機器如何選出最佳模型。本章介紹機器學習版本的樣本內誤差(訓練誤差)和樣本外誤差(測試誤差),再透過驗證誤差來選擇模型。
前3 章屬於機器學習的概述:第1 章介紹機器學習的概念,為了讓讀者打好基礎;第2 章為證明機器學習是可行的,讓讀者做到心中有數;第3 章運用機器學習效能指標而建置架構,看懂它們不需要精通任何機器學習的演算法。作者在這3 章的寫作上花費的時間最多,光這3 章的內容就絕對讓讀者有所收穫。
第4~14 章介紹「如何學好機器學習」,重點介紹機器學習的各種演算法和調參技巧。在本書中,機器學習模型分為線性模型、非線性模型和整合模型。
◆ 第4~8 章介紹線性模型,包含線性回歸模型、對率回歸模型、正規化回歸模型、支援向量機模型。
◆ 第9~11 章介紹非線性模型,包含單純貝氏模型、決策樹模型、類神經網路模型、正向/反向傳播模型。
◆ 第12~14 章介紹整合模型,包含隨機森林模型、提升樹模型、極度梯度提升模型。
第15 章介紹機器學習中一些非常實用的經驗,包含學習策略、目標設定、誤差分析、偏差和方差分析。
為了幫助讀者閱讀,下面的流程圖展示了整本書的大架構。
本書的每一章都以通俗的引言開始,吸引讀者;以精美的思維導圖過渡,讓說明想法更清晰;以簡要的歸納結束,讓讀者加強所學的知識。此外,每個基礎知識都是理論和實作相結合,既有嚴謹的數學推導,又有多樣(Python 和MATLAB)的程式展示,圖文並茂,以最好的內容服務各種讀者。
作者非常欣賞Google 大腦研究員Chris Olah 的觀點 "I want to understandthings clearly, and explain them well",即力爭把每個基礎知識弄清楚、弄透,然後以通俗容易的方式讓其他人學會、學透。作者願意做「把困難的東西研究透而簡單展示給大眾」的人(Research Distiller),因為學術界中的論文雖然「高大上」,但是很多會讓讀者讀完還是一頭霧水。用Chris Olah 的話來講,這種以不清不楚的方式來解釋高難課題的做法,欠下太多研究債務(Research Debt)。
這本書能夠完成,受到很多機器學習優質課程的啟發,比如史丹佛大學Andrew Ng 教授的CS229 課程、加州理工學院Yaser S. Abu-Mostafa 教授的Learning from Data 課程、台灣大學林軒田教授的機器學習基礎和技法、華盛頓大學Emily Fox 和Carlos Guestrin 教授的Machine Learning Specialization。他們的課程都是理論結合實際,通俗而不失嚴謹,學習這些課程可以讓我解決工作中的很多需求,可見這些課程的功力之高,在這裡我想對他們表達最真摯的感謝(即使他們也不認識我)!
此外,感謝父母無條件地支援我寫書,感謝爺爺、大伯和姐夫經常閱讀我的公眾號文章,經常鼓勵我,感謝夫人在我寫書時幫著帶小孩,感謝女兒給我的無窮動力:想像著以後她拿著我寫的書可以自豪地跟別的小朋友說「這是我爸爸寫的書」。最後感謝所有「王的機器」公眾號的讀者,你們的支援和回饋一直激勵著我不斷進步,這本書是特別為你們而寫的。
由於作者水準有限,書中難免會有錯漏之處,歡迎諸位專家和讀者們斧正。