描述
內容簡介
l 機器學習的靈魂:以統計數學為核心說明
l 全書圖解及歷史來龍去脈完整說明 l 從步入監督學習之旅開始 l 最精要的線性迴歸模型 l 完整講解K近鄰及貝氏推論 l 邏輯迴歸模型及最大熵模型 l 決策樹,感知機及支援向量機 l EM演算法及Boosting提升方法
統計機器學習之旅,從監督學習開始,透過分析已標記的資料集訓練模型,使預測未知資料。最基礎的就是線性迴歸。進一步深入,K近鄰(K-NN)演算法和貝氏推論是統計機器學習中的兩大核心技術。 之後則說明邏輯迴歸模型和最大熵模型,兩者專注於分類問題。決策樹、感知機和支援向量機(SVM)則代表了更進階的機器學習模型。決策樹通過構建樹狀結構來進行決策,其直觀性和易於理解的特點使其在解釋性要求較高的場景中非常受歡迎。感知機是一種二分類線性分類器,支援向量機則是一種強大的分類器,透過在特徵空間中找到一個最優分割平面來分離不同類別的數據。 最後,EM(期望最大化)演算法和Boosting方法是提升模型性能的高級技術。EM算法通過迭代最佳化來處理。
|
作者簡介
董平(博士)
上海對外經貿大學統計與信息學院講師。曾獲概率論與數理統計理學博士學位(山東大學2018)、理學學士學位和經濟學學士學位(山東大學2012);美國邁阿密大學訪問學者。主要研究領域為高維數據、假設檢驗、半監督回歸、統計機器學習等。參與多項科研項目和工程類項目,主持多項校級課程建設項目,曾獲第三屆上海市高校教師教學創新大賽二等獎。 |
目錄
緒論
0.1本書講什麼,初衷是什麼 0.2貫穿本書的兩大思維模式 0.3這本書決定它還想要這樣 0.4如何使用本書
第 1 章 步入監督學習之旅 1.1機器學習從資料開始 1.2監督學習是什麼 1.3如何評價模型的好壞 1.4損失最小化思想 1.5怎樣理解模型的性能:方差 偏差折中思想 1.6如何選擇最佳模型 1.7本章小結 1.8 習題
第 2 章 線性迴歸模型 2.1探尋線性迴歸模型 2.2最小平方法 2.3線性迴歸模型的預測 2.4擴充部分:嶺迴歸與套索迴歸 2.5案例分析——共用單車資料集 2.6本章小結 2.7 習題
第 3 章 K 近鄰模型 3.1鄰友思想 3.2K 近鄰演算法 3.3最近鄰分類器的誤差率 3.4k 維樹 3.5擴充部分:距離度量學習的 K 近鄰分類器 3.6案例分析——鶯尾花資料集 3.7本章小結 3.8 習題
第 4 章 貝氏推斷 4.1貝氏思想 4.2貝氏分類器 4.3如何訓練貝氏分類器 4.4常用的單純貝氏分類器 4.5擴充部分 4.6案例分析——蘑菇資料集 4.7本章小結 4.8 習題 4.9 閱讀時間:貝氏思想的起源
第 5 章 邏輯迴歸模型 5.1一切始於邏輯函式 5.2邏輯迴歸模型的學習 5.3邏輯迴歸模型的學習演算法 5.4擴充部分 5.5案例分析——離職資料集 5.6本章小結 5.7 習題 5.8 閱讀時間:牛頓法是牛頓提出的嗎
第 6 章 最大熵模型 6.1問世間熵為何物 6.2最大熵思想 6.3最大熵模型的學習問題 6.4模型學習的最最佳化演算法 6.5案例分析——湯圓小例子 6.6本章小結 6.7 習題 6.8 閱讀時間:奇妙的對數
第 7 章 決策樹模型 7.1決策樹中蘊含的基本思想 7.2決策樹的特徵選擇 7.3 決策樹的生成演算法 7.4 決策樹的剪枝過程 7.5 擴充部分:隨機森林 7.6 案例分析——帕爾默企鵝資料集 7.7 本章小結 7.8 習題 7.9 閱讀時間:經濟學中的基尼指數
第 8 章 感知機模型 8.1感知機制——從邏輯迴歸到感知機 8.2感知機的學習 8.3感知機的最佳化演算法 8.4案例分析——鶯尾花資料集 8.5本章小結 8.6 習題
第 9 章 支援向量機 9.1從感知機到支援向量機 9.2線性可分支援向量機 9.3線性支援向量機 9.4非線性支援向量機 9.5SMO 最佳化方法 9.6案例分析——電離層資料集 9.7本章小結 9.8 習題
第 10 章 EM 演算法 10.1極大似然法與 EM 演算法 10.2EM 演算法的迭代過程 10.3EM 演算法的應用 10.4本章小結 10.5 習題
第 11 章 提升方法 11.1提升方法(Boosting)是一種整合學習方法 11.2起步於 AdaBoost 演算法 11.3提升樹和 GBDT 演算法 11.4擴充部分:XGBoost 演算法 11.5案例分析——波士頓房價資料集 11.6本章小結 11.7 習題
參考文獻
附錄-小冊子 第 1 章 微積分小工具 1.1 凸函式與凹函式 1.2 幾個重要的不等式 1.3 常見的求導公式與求導法則 1.4 泰勒公式 1.5 費馬原理
第 2 章 線性代數小工具 2.1 幾類特殊的矩陣 2.2 矩陣的基本運算 2.3 二次型的矩陣表示
第 3 章 機率統計小工具 3.1 隨機變數 3.2 機率分佈 3.3 數學期望和方差 3.4 常用的幾種分佈 3.5 小技巧—從二項分佈到正態分佈的連續修正
第 4 章 最佳化小工具 4.1 梯度下降法 4.2 牛頓法 4.3 擬牛頓法 4.4 座標下降法 4.5 拉格朗日對偶思想 |
序
2018 年,一位電腦專業的朋友自學機器學習內容,期間遇到諸多困難,尤其是關於機率與統計學方面的內容,這一現象讓我開始關注統計學與機器學習這兩個領域。李航老師的《統計學習方法》可以說是一本與統計學接軌最多的書籍,也讓我萌生了與大家分享統計學與機器學習的想法。雖然機器學習的發展有其獨特的發展歷程,但是很多模型和演算法的理論基礎仍然來自於統計學。因此,我們需要從統計學的角度來理解機器學習模型的本質。
在朋友們的鼓勵下,我決定以《統計學習方法》為藍本,製作知識型影片。入駐 B 站(編按:中國大陸的視訊網站bilibili)後,從最初寥寥的幾十名粉絲,到幾百名粉絲,再到現在的將近三萬名粉絲。這些人中有一部分是學生,如剛畢業的高中生、大學生、碩士生和博士生;還有一部分是從業者,如大專院校教師、企業或公司的在職人員。大家志同道合、匯聚於此。與各位的互動交流讓我加深了理解,開闊了視野,拓寬了想法。真誠地感謝各位朋友們長期以來的支援!是你們的支援讓我有勇氣繼續錄製影片並貫徹始終。 自古以來,學者們便一直在探尋萬物本源,尋找真理。如今,人工智慧已經成為科技領域的一大熱點,機器學習更是其中最為核心的研究方向之一。在機器學習領域,很多人關注演算法的實現和結果,卻忽略了演算法背後的理論基礎。而在這一領域,機率和統計學是不可或缺的。希望本書的出版為展示機器學習背後的統計學原理提供綿薄之力。 為滿足不同年齡和不同專業讀者的需求,我們為大家貼心地準備了主體書與小冊子。主體書以機器學習模型為主,每一章都清晰透徹地解析了模型原理,書中的每一頁都設計了留白,方便讀者批註;小冊子用於查閱碎片化的基礎知識,便於讀者隨時複習需要的數學概念。書中不僅有機器學習的理論知識,還有故事和案例,希望各位讀者在閱讀本書的過程中能夠感受到機器學習中統計思維的魅力,獲得科學思維方法的啟發並具有獨立的創新思辨能力。 最後,我要感謝清華大學出版社的楊迪娜編輯,是她讓我有了寫書的想法,將我累積多年的機器學習中的統計思維知識分享給讀者,更感謝她為本書成立、編校與出版所付出的辛勤勞動,同時感謝清華大學出版社對本書的支援。感謝所有嗶哩嗶哩、公眾號和知乎上的粉絲對我的關注、留言、提問與批評。感謝來自天津大學的馬曉慧幫助整理影片講義。感謝家人帶給我的靈感、快樂與溫暖。 限於本人水準,書中的缺點和不足之處在所難免,熱忱歡迎各位讀者批評指正。
董 平 |