描述
內容簡介
AI時代Math元年 - 用Python全精通機器學習✴︎ 迴歸分析:深度挖掘資料中變數間的關聯性與規律 ✴︎ 線性迴歸:透過直線模型解讀簡單資料的趨勢與變化 ✴︎ 多元線性迴歸:建構高維資料模型,分析多重影響因素 ✴︎ 非線性迴歸:處理複雜資料模式,探索非線性關係的應用 ✴︎ 正規化迴歸:透過嶺回歸與套索迴歸有效抑制模型過擬合 ✴︎ 貝氏迴歸:結合先驗知識與數據,實現貝氏統計推斷 ✴︎ 高斯過程:深入了解從理論到應用的高斯模型方法 ✴︎ k最近鄰分類:運用鄰近資料進行分類與迴歸的經典算法 ✴︎ 決策樹:以層次結構實現資料分類與回歸的靈活應用 ✴︎ 支援向量機:應對高維資料,實現精確分類與回歸分析 ✴︎ 主成分分析:透過降維技術提取資料中的核心特徵與模式 ✴︎ K平均值聚類:快速分群分析,尋找資料內部結構與規律 ✴︎ 高斯混合模型:運用軟聚類技術實現精細的資料分群 ✴︎ 最大期望演算法:優化模型參數,提升聚類與估計效能 |
作者簡介
|
目錄
第 1 篇 整體說明
第 1 章 機器學習 1.1 什麼是機器學習? 1.2 迴歸:找到引數與因變數關係 1.3 分類:針對有標籤資料 1.4 降維:降低資料維度,提取主要特徵 1.5 聚類:針對無標籤資料 1.6 機器學習流程 1.7 下一步學什麼? 第 2 篇 迴歸 第 2 章 迴歸分析 2.1 線性迴歸:一個表格、一條直線 2.2 方差分析(ANOVA) 2.3 總離差平方和(SST) 2.4 迴歸平方和(SSR) 2.5 殘差平方和(SSE) 2.6 幾何角度:畢氏定理 2.7 擬合優度:評價擬合程度 2.8 F 檢驗:模型參數不全為0 2.9 t 檢驗:某個迴歸係數是否為0 2.10 置信區間:因變數平均值的區間 2.11 預測區間:因變數特定值的區間 2.12 對數似然函數:用在最大似然估計(MLE) 2.13 資訊準則:選擇模型的標準 2.14 殘差分析:假設殘差服從平均值為0 的正態分佈 2.15 自相關檢測:Durbin-Watson 2.16 條件數:多重共線性 第 3 章 多元線性迴歸 3.1 多元線性迴歸 3.2 最佳化問題:OLS 3.3 幾何解釋:投影 3.4 二元線性迴歸實例 3.5 多元線性迴歸實例 3.6 正交關係 3.7 三個平方和 3.8 t 檢驗 3.9 多重共線性 3.10 條件機率角度看多元線性迴歸 第 4 章 非線性迴歸 4.1 線性迴歸 4.2 線性對數模型 4.3 非線性迴歸 4.4 多項式迴歸 4.5 邏輯迴歸 4.6 邏輯函數完成分類問題 第 5 章 正規化迴歸 5.1 正規化:抑制過擬合 5.2 嶺迴歸 5.3 幾何角度看嶺迴歸 5.4 套索迴歸 5.5 幾何角度看套索迴歸 5.6 彈性網路迴歸 第 6 章 貝氏迴歸 6.1 回顧貝氏推斷 6.2 貝氏迴歸:無資訊先驗 6.3 使用PyMC 完成貝氏迴歸 6.4 貝氏角度理解嶺正規化 6.5 貝氏角度理解套索正規化 第 7 章 高斯過程 7.1 高斯過程原理 7.2 解決迴歸問題 7.3 解決分類問題 第 3 篇 分類 第 8 章 k 最近鄰分類 8.1 k 最近鄰分類原理:近朱者赤,近墨者黑 8.2 二分類:非紅,即藍 8.3 三分類:非紅,不是藍,就是灰 8.4 近鄰數量k 影響投票結果 8.5 投票權重:越近,影響力越高 8.6 最近質心分類:分類邊界為中垂線 8.7 k-NN 迴歸:非參數迴歸 第 9 章 單純貝氏分類 9.1 重逢貝氏 9.2 單純貝氏的「單純」之處 9.3 高斯,你好 第 10 章 高斯判別分析 10.1 又見高斯 10.2 六類協方差矩陣 10.3 決策邊界解析解 10.4 第一類 10.5 第二類 10.6 第三類 10.7 第四類 10.8 第五類 10.9 第六類 10.10 線性和二次判別分析 第 11 章 支援向量機 11.1 支援向量機 11.2 硬間隔:處理線性可分 11.3 構造最佳化問題 11.4 支援向量機處理二分類問題 11.5 軟間隔:處理線性不可分 第 12 章 核心技巧 12.1 映射函數:實現升維 12.2 核心技巧SVM 最佳化問題 12.3 線性核心:最基本的核心函數 12.4 多項式核心 12.5 二次核心:二次曲面 12.6 三次核心:三次曲面 12.7 高斯核心:基於徑向基函數 12.8 Sigmoid 核心 第 13 章 決策樹 13.1 決策樹:可以分類,也可以迴歸 13.2 資訊熵:不確定性度量 13.3 資訊增益:透過劃分,提高確定度 13.4 基尼指數:指數越大,不確定性越高 13.5 最大葉節點:影響決策邊界 13.6 最大深度:控制樹形大小 第 4 篇 降維 第 14 章 主成分分析 14.1 主成分分析 14.2 原始資料 14.3 特徵值分解 14.4 正交空間 14.5 投影結果 14.6 還原 14.7 雙標圖 14.8 陡坡圖 第 15 章 截斷奇異值分解 15.1 幾何角度看奇異值分解 15.2 四種SVD 分解 15.3 幾何角度看截斷型SVD 15.4 最佳化角度看截斷型SVD 15.5 分析鳶尾花照片 第 16 章 主成分分析進階 16.1 從「六條技術路線」說起 16.2 協方差矩陣:中心化資料 16.3 格拉姆矩陣:原始資料 16.4 相關性係數矩陣:標準化資料 第 17 章 主成分分析與迴歸 17.1 正交迴歸 17.2 一元正交迴歸 17.3 幾何角度看正交迴歸 17.4 二元正交迴歸 17.5 多元正交迴歸 17.6 主元迴歸 17.7 偏最小平方迴歸 第 18 章 核心主成分分析 18.1 核心主成分分析 18.2 從主成分分析說起 18.3 用核心技巧完成核心主成分分析 第 19 章 典型相關分析 19.1 典型相關分析原理 19.2 從一個協方差矩陣考慮 19.3 以鳶尾花資料為例 第 5 篇 聚類 第 20 章 K 平均值聚類 20.1 K 平均值聚類 20.2 最佳化問題 20.3 迭代過程 20.4 肘部法則:選定聚類叢集值 20.5 輪廓圖:選定聚類叢集值 20.6 沃羅諾伊圖 第 21 章 高斯混合模型 21.1 高斯混合模型 21.2 四類協方差矩陣 21.3 分量數量 21.4 硬聚類和軟聚類 第 22 章 最大期望演算法 22.1 最大期望 22.2 E 步:最大化期望 22.3 M 步:最大化似然機率 22.4 迭代過程 22.5 多元GMM 迭代 第 23 章 層次聚類 23.1 層次聚類 23.2 樹狀圖 23.3 叢集間距離 23.4 親近度層次聚類 第 24 章 密度聚類 24.1 DBSCAN 聚類 24.2 調節參數 第 25 章 譜聚類 25.1 譜聚類 25.2 距離矩陣 25.3 相似度 25.4 無向圖 25.5 拉普拉斯矩陣 25.6 特徵值分解 |
序
感謝
首先感謝大家的信任。
作者僅是在學習應用數學科學和機器學習演算法時,多讀了幾本數學書,多做了一些思考和知識整理而已。知者不言,言者不知。知者不博,博者不知。由於作者水準有限,斗膽把自己有限所學所思與大家分享,作者權當無知者無畏。希望大家在GitHub 多提意見,讓本書成為作者和讀者共同參與創作的優質作品。
特別感謝北京清華大學出版社的欒大成老師。從選題策劃、內容創作到裝幀設計,欒老師事無巨細、一路陪伴。每次與欒老師交流,都能感受到他對優質作品的追求、對知識分享的熱情。
出來混總是要還的
曾經,考試是我們學習數學的唯一動力。考試是頭懸樑的繩,是錐刺股的錐。我們中的絕大多數人從小到大為各種考試埋頭題海,學數學味同嚼蠟,甚至讓人恨之入骨。
數學所帶來了無盡的「折磨」。我們甚至恐懼數學,憎恨數學,恨不得一走出校門就把數學拋之腦後,老死不相往來。
可悲可笑的是,我們很多人可能會在畢業五年或十年以後,因為工作需要,不得不重新學習微積分、線性代數、機率統計,悔恨當初沒有學好數學,走了很多彎路,沒能學以致用,甚至遷怒於教材和老師。
這一切不能都怪數學,值得反思的是我們學習數學的方法和目的。
再給自己一個學數學的理由
為考試而學數學,是被逼無奈的舉動。而為數學而學數學,則又太過高尚而遙不可及。
相信對絕大部分的我們來說,數學是工具,是謀生手段,而非目的。我們主動學數學,是想用數學工具解決具體問題。
現在,本叢書給大家帶來一個「學數學、用數學」的全新動力—資料科學、機器學習。
資料科學和機器學習已經深度融合到我們生活的各方面,而數學正是開啟未來大門的鑰匙。不是所有人生來都握有一副好牌,但是掌握「數學 + 程式設計 + 機器學習」的知識絕對是王牌。這次,學習數學不再是為了考試、分數、升學,而是為了投資時間,自我實現,面向未來。
未來已來,你來不來?
本書如何幫到你
為了讓大家學數學、用數學,甚至愛上數學,作者可謂頗費心機。在叢書創作時,作者儘量克服傳統數學教材的各種弊端,讓大家學習時有興趣、看得懂、有思考、更自信、用得著。
為此,叢書在內容創作上突出以下幾個特點。
◆數學 + 藝術——全圖解,極致視覺化,讓數學思想躍然紙上、生動有趣、一看就懂,同時提高大家的資料思維、幾何想像力、藝術感。
◆零基礎——從零開始學習 Python 程式設計,從寫第一行程式到架設資料科學和機器學習應用,儘量將陡峭學習曲線拉平。
◆知識網路——打破數學板塊之間的門檻,讓大家看到數學代數、幾何、線性代數、微積分、機率統計等板塊之間的聯繫,編織一張綿密的數學知識網路。
◆動手——授人以魚不如授人以漁,和大家一起寫程式、創作數學動畫、互動App。
◆學習生態——建構自主探究式學習生態環境「紙質圖書 + 程式檔案 + 視覺化工具 + 思維導圖」,提供各種優質學習資源。
◆理論 + 實踐——從加減乘除到機器學習,叢書內容安排由淺入深、螺旋上升,兼顧理論和實踐;在程式設計中學習數學,學習數學時解決實際問題。
雖然本書標榜「從加減乘除到機器學習」,但是建議讀者朋友們至少具備高中數學知識。如果讀者正在學習或曾經學過大學數學 ( 微積分、線性代數、機率統計),那麼就更容易讀懂本叢書了。
聊聊數學
數學是工具。錘子是工具,剪刀是工具,數學也是工具。
數學是思想。數學是人類思想高度抽象的結晶體。在其冷酷的外表之下,數學的核心實際上就是人類樸素的思想。學習數學時,知其然,更要知其所以然。不要死記硬背公式定理,理解背後的數學思想才是關鍵。如果你能畫一幅圖、用簡單的語言描述清楚一個公式、一則定理,這就說明你真正理解了它。
數學是語言。就好比世界各地不同種族有自己的語言,數學則是人類共同的語言和邏輯。數學這門語言極其精準、高度抽象,放之四海而皆準。雖然我們中大多數人沒有被數學「女神」選中,不能為人類對數學認知開疆擴土;但是,這絲毫不妨礙我們使用數學這門語言。就好比,我們不會成為語言學家,但我們完全可以使用母語和外語交流。
數學是系統。代數、幾何、線性代數、微積分、機率統計、最佳化方法等,看似一個個孤島,實際上都是數學網路的一條條織線。建議大家學習時,特別關注不同數學板塊之間的聯繫,見樹,更要見林。
數學是基石。拿破崙曾說「數學的日臻完善和國強民富息息相關。」數學是科學進步的根基,是經濟繁榮的支柱,是保家衛國的武器,是探索星辰大海的航船。
數學是藝術。數學和音樂、繪畫、建築一樣,都是人類藝術體驗。透過視覺化工具,我們會在看似枯燥的公式、定理、資料背後,發現數學之美。
數學是歷史,是人類共同記憶體。「歷史是過去,又屬於現在,同時在指引未來。」數學是人類的集體學習思考,它把人的思維符號化、形式化,進而記錄、累積、傳播、創新、發展。從甲骨、泥板、石板、竹簡、木牘、紙草、羊皮卷、活字印刷、紙質書,到數位媒介,這一過程持續了數千年,至今綿延不息。
數學是無窮無盡的想像力,是人類的好奇心,是自我挑戰的毅力,是一個接著一個的問題,是看似荒誕不經的猜想,是一次次膽大包天的批判性思考,是敢於站在前人臂膀之上的勇氣,是孜孜不倦地延展人類認知邊界的不懈努力。
家園、詩、遠方
諾瓦利斯曾說:「哲學就是懷著一種鄉愁的衝動到處去尋找家園。」
在紛繁複雜的塵世,數學純粹得就像精神的世外桃源。數學是,一束光,一條巷,一團不滅的希望,一股磅礡的力量,一個值得寄託的避風港。
打破陳腐的鎖鏈,把功利心暫放一邊,我們一道懷揣一份鄉愁,心存些許詩意,踩著藝術維度,投入數學張開的臂膀,駛入它色彩斑斕、變幻無窮的深港,感受久違的歸屬,一睹更美、更好的遠方。 |