描述
內容簡介
全書分為以下幾個部分:
統計學:機率、高斯、隨機、頻率派開始談起,包括統計描述、古典機率模型、離散隨機變數、離散分佈、連續隨機變數及連續分佈一直到高斯部分,包括了一元、二元、多元、條件高斯分佈,中間也提到最重要的斜方差矩陣。 再來的部分說明了隨機,包括了隨機變數,蒙地卡羅、頻率派統計、機率密度。 接下來說明了貝氏定理部分,包括貝氏分類、進階貝氏分類、貝氏推斷入門及進階以及馬可夫鏈蒙地卡羅。 最後一部分則以橢圓為主,包括了馬氏距離、線性迴歸及主成分分析,搭配本書系其它書籍,相信AI的數學,對你來說只會是開心而不是阻礙。
l 宇宙的語言是數學,數學的精華是機率,機率的表達是統計! l 機器學習、深度學習、人工智慧,控制系統都覆蓋的機率統計基礎 l 統計描述方法:描述、推斷、圖、差、位、距、值、度、變 l 古典機率、條件機率、全機率理論 l 離散變數、離散分佈、連續隨機變數 l 一元、二元、多元、條件高斯分佈、斜方差矩陣 l 隨機變數函式、蒙地卡羅模擬 l 頻率派統計、機率密度、機率質量 l 貝氏定理、貝氏分類、貝氏推斷、馬可夫鏈 l 馬氏距離、線性迴歸、主成分分析
本書資源可至深智官網下載:https://deepwisdom.com.tw
|
作者簡介
|
目錄
第1篇 統計
1 機率統計全景 1.1 必備數學工具:一個線性代數小測驗 1.2 統計描述 1.3 機率 1.4 高斯 1.5 隨機 1.6 頻率派 1.7 貝氏派 1.8 橢圓三部曲
2 統計描述 2.1 統計兩大工具:描述、推斷 2.2 長條圖:單特徵資料分佈 2.3 散點圖:兩特徵資料分佈 2.4 有標籤資料的統計視覺化 2.5 集中度:平均值、質心 2.6 分散度:極差、方差、標準差 2.7 分位:四分位、百分位等 2.8 箱型圖:小提琴圖、分佈散點圖 2.9 中心距:平均值、方差、偏度、峰度 2.10 多元隨機變數關係:協方差矩陣、相關性係數矩陣 第 2 篇 機率 3 古典機率模型 3.1 無處不在的機率 3.2 古典機率:離散均勻機率律 3.3 回顧:巴斯卡三角和機率 3.4 事件之間的關係:集合運算 3.5 條件機率:給定部分資訊做推斷 3.6 貝氏定理:條件機率、邊緣機率、聯合機率關係 3.7 全機率定理:窮舉法 3.8 獨立、互斥、條件獨立 4 離散隨機變數 4.1 隨機:天地不仁,以萬物為芻狗 4.2 期望值:隨機變數的可能設定值加權平均 4.3 方差:隨機變數離期望距離平方的平均值 4.4 累積分佈函數(CDF):累加 4.5 二元離散隨機變數 4.6 協方差、相關性係數 4.7 邊緣機率:偏求和,相當於降維 4.8 條件機率:引入貝氏定理 4.9 獨立性:條件機率等於邊緣獨立 4.10 以鳶尾花資料為例:不考慮分類標籤 4.11 以鳶尾花資料為例:考慮分類標籤 4.12 再談機率1:展開、折疊 5 離散分佈 5.1 機率分佈:高度理想化的數學模型 5.2 離散均勻分佈:不分厚薄 5.3 伯努利分佈:非黑即白 5.4 二項分佈:巴斯卡三角 5.5 多項分佈:二項分佈推廣 5.6 卜松分佈:建模隨機事件的發生次數 5.7 幾何分佈:滴水穿石 5.8 超幾何分佈:不放回 6 連續隨機變數 6.1 一元連續隨機變數 6.2 期望、方差和標準差 6.3 二元連續隨機變數 6.4 邊緣機率:二元PDF 偏積分 6.5 條件機率:引入貝氏定理 6.6 獨立性:比較條件機率和邊緣機率 6.7 以鳶尾花資料為例:不考慮分類標籤 6.8 以鳶尾花資料為例:考慮分類標籤 7 連續分佈 7.1 連續均勻分佈:離散均勻分佈的連續版 7.2 高斯分佈:最重要的機率分佈,沒有之一 7.3 邏輯分佈:類似高斯分佈 7.4 學生t- 分佈:厚尾分佈 7.5 對數正態分佈:源自正態分佈 7.6 指數分佈:卜松分佈的連續隨機變數版 7.7 卡方分佈:若干IID 標準正態分佈平方和 7.8 F- 分佈:和兩個服從卡方分佈的獨立隨機變數有關 7.9 Beta 分佈:機率的機率 7.10 Dirichlet 分佈:多元Beta 分佈 8 條件機率 8.1 離散隨機變數:條件期望 8.2 離散隨機變數:條件方差 8.3 離散隨機變數的條件期望和條件方差:以鳶尾花為例 8.4 連續隨機變數:條件期望 8.5 連續隨機變數:條件方差 8.6 連續隨機變數:以鳶尾花為例 8.7 再談如何分割「1」 第 3 篇 高斯 9 一元高斯分佈 9.1 一元高斯分佈:期望值決定位置,標準差決定形狀 9.2 累積機率密度:對應機率值 9.3 標準高斯分佈:期望為0,標準差為1 9.4 68-95-99.7 法則 9.5 用一元高斯分佈估計機率密度 9.6 經驗累積分佈函數 9.7 QQ 圖:分位- 分點陣圖 9.8 從距離到一元高斯分佈 10 二元高斯分佈 10.1 二元高斯分佈:看見橢圓 10.2 邊緣分佈:一元高斯分佈 10.3 累積分佈函數:機率值 10.4 用橢圓解剖二元高斯分佈 10.5 聊聊線性相關性係數 10.6 以鳶尾花資料為例:不考慮分類標籤 10.7 以鳶尾花資料為例:考慮分類標籤 11 多元高斯分佈 11.1 矩陣角度:一元、二元、三元到多元 11.2 高斯分佈:橢圓、橢球、超橢球 11.3 解剖多元高斯分佈PDF 11.4 平移→旋轉 11.5 平移→旋轉→縮放 12 條件高斯分佈 12.1 聯合機率和條件機率關係 12.2 給定X 條件下,Y 的條件機率:以二元高斯分佈為例 12.3 給定Y 條件下,X 的條件機率:以二元高斯分佈為例 12.4 多元常態條件分佈:引入矩陣運算 13 協方差矩陣 13.1 計算協方差矩陣:描述資料分佈 13.2 相關性係數矩陣:描述Z 分數分佈 13.3 特徵值分解:找到旋轉、縮放 13.4 SVD 分解:分解資料矩陣 13.5 Cholesky 分解:列向量座標 13.6 距離:歐氏距離vs 馬氏距離 13.7 幾何角度:超橢球、橢球、橢圓 13.8 合併協方差矩陣 第 4 篇 隨機 14 隨機變數的函數 14.1 隨機變數的函數:以鳶尾花為例 14.2 線性變換:投影角度 14.3 單方向投影:以鳶尾花兩特徵為例 14.4 正交系投影:以鳶尾花兩特徵為例 14.5 以橢圓投影為角度看線性變換 14.6 主成分分析:換個角度看資料 15 蒙地卡羅模擬 15.1 蒙地卡羅模擬:基於虛擬亂數發生器 15.2 估算平方根 15.3 估算積分 15.4 估算體積 15.5 估算圓周率 15.6 布豐投針估算圓周率 15.7 接受- 拒絕抽樣法 15.8 二項分佈隨機漫步 15.9 兩個服從高斯分佈的隨機變數相加 15.10 產生滿足特定相關性的隨機數 第 5 篇 頻率派 16 頻率派統計推斷 16.1 統計推斷:兩大學派 16.2 頻率學派的工具 16.3 中心極限定理:漸近於正態分佈 16.4 最大似然:雞兔比例 16.5 最大似然:以估算平均值、方差為例 16.6 區間估計:整體方差已知,平均值估計 16.7 區間估計:整體方差未知,平均值估計 16.8 區間估計:整體平均值未知,方差估計 17 機率密度估計 17.1 機率密度估計:從長條圖說起 17.2 核心密度估計:若干核心函數加權疊合 17.3 頻寬:決定核心函數的高矮胖瘦 17.4 核心函數:八種常見核心函數 17.5 二元KDE:機率密度曲面 第 6 篇 貝氏派 18 貝氏分類 18.1 貝氏定理:分類鳶尾花 18.2 似然機率:給定分類條件下的機率密度 18.3 先驗機率:鳶尾花分類佔比 18.4 聯合機率:可以作為分類標準 18.5 證據因數:和分類無關 18.6 後驗機率:也是分類的依據 18.7 單一特徵分類:基於KDE 18.8 單一特徵分類:基於高斯 19 貝氏分類進階 19.1 似然機率:給定分類條件下的機率密度 19.2 聯合機率:可以作為分類標準 19.3 證據因數:和分類無關 19.4 後驗機率:也是分類的依據 19.5 獨立:不代表條件獨立 19.6 條件獨立:不代表獨立 20 貝氏推斷入門 20.1 貝氏推斷:更貼合人腦思維 20.2 從一元貝氏公式說起 20.3 走地雞兔:比例完全不確定 20.4 走地雞兔:很可能一半一半 20.5 走地雞兔:更一般的情況 21 貝氏推斷進階 21.1 除了雞兔,農場發現了豬 21.2 走地雞兔豬:比例完全不確定 21.3 走地雞兔豬:很可能各1/3 21.4 走地雞兔豬:更一般的情況 22 馬可夫鏈蒙地卡羅 22.1 歸一化因數沒有閉式解? 22.2 雞兔比例:使用PyMC3 22.3 雞兔豬比例:使用PyMC3 第 7 篇 橢圓 23 馬氏距離 23.1 馬氏距離:考慮資料分佈的距離度量 23.2 歐氏距離:最基本的距離 23.3 標準化歐氏距離:兩個角度 23.4 馬氏距離:兩個角度 23.5 馬氏距離和卡方分佈 24 線性迴歸 24.1 再聊線性迴歸 24.2 最小平方法 24.3 最佳化問題 24.4 投影角度 24.5 線性方程組:代數角度 24.6 條件機率 24.7 最大似然估計(MLE) 25 主成分分析 25.1 再聊主成分分析 25.2 原始資料 25.3 特徵值分解協方差矩陣 25.4 投影 25.5 幾何角度看PCA 25.6 奇異值分解 25.7 最佳化問題 25.8 資料還原和誤差 |
序
感謝
首先感謝大家的信任。 作者僅是在學習應用資料科學和機器學習演算法時,多讀了幾本數學書,多做了一些思考和知識整理而已。知者不言,言者不知。知者不博,博者不知。 由於作者水準有限,斗膽把自己所學所思與大家分享,作者權當無知者無畏。 希望大家在Github多提意見,讓這套書成為作者和讀者共同參與創作的作品。 特別感謝清華大學出版社的欒大成老師。從選題策劃、內容創作到裝幀設計,欒老師事無巨細、一路陪伴。每次與欒老師交流,都能感受到他對優質作品的追求、對知識分享的熱情。
出來混總是要還的 曾經,考試是我們學習數學的唯一動力。考試是頭懸樑的繩,是錐刺股的錐。我們中的大多數人從小到大為各種考試埋頭題海,數學味同嚼蠟,甚至讓人恨之入骨。 數學所帶來了無盡的「折磨」。我們甚至恐懼數學,憎恨數學,恨不得一走出校門就把數學拋之腦後,老死不相往來。
再給自己一個學數學的理由 為考試而學數學,是被逼無奈的舉動。而為數學而數學,則又太過高尚而遙不可及。 相信對絕大部分的我們來說,數學是工具、是謀生手段,而非目的。我們主動學數學,是想用數學工具解決具體問題。 現在,這套書給大家一個「學數學、用數學」的全新動力—資料科學、機器學習。 資料科學和機器學習已經深度融合到我們生活的各方面,而數學正是開啟未來大門的鑰匙。不是所有人生來都握有一副好牌,但是掌握「數學+程式設計+機器學習」的知識絕對是王牌。這次,學習數學不再是為了考試、分數、升學,而是投資時間、自我實現、面向未來。 未來已來,你來不來?
本套本書系如何幫到你 為了讓大家學數學、用數學,甚至愛上數學,作者可謂頗費心機。在創作這套書時,作者儘量克服傳統數學教材的各種弊端,讓大家學習時有興趣、看得懂、有思考、更自信、用得著。 為此,叢書在內容創作上突出以下幾個特點。 ●數學+藝術——全書圖解,極致視覺化,讓數學思想躍然紙上、生動有趣、一看就懂,同時提高大家的資料思維、幾何想像力、藝術感。 ●零基礎——從零開始學習Python程式設計,從寫第一行程式到架設資料科學和機器學習應用,儘量將陡峭學習曲線拉平。 ●知識網路——打破數學板塊之間的門檻,讓大家看到數學代數、幾何、線性代數、微積分、機率統計等板塊之間的聯繫,編織一張綿密的數學知識網路。 ●動手——授人以魚不如授人以漁,和大家一起寫程式、創作數學動畫、互動App。 ●學習生態——構造自主探究式學習生態環境「紙質圖書+電子圖書+程式檔案+視覺化工具+思維導圖」,提供各種優質學習資源。 ●理論+實踐——從加減乘除到機器學習,叢書內容安排由淺入深、螺旋上升,兼顧理論和實踐;在程式設計中學習數學,學習數學時解決實際問題。 雖然本書標榜「從加減乘除到機器學習」,但是建議讀者朋友們至少具備高中數學知識。如果讀者正在學習或曾經學過大學數學(微積分、線性代數、機率統計),這套書就更容易讀懂了。
聊聊數學 數學是工具。錘子是工具,剪刀是工具,數學也是工具。 數學是思想。數學是人類思想高度抽象的結晶體。在其冷酷的外表之下,數學的核心實際上就是人類樸素的思想。學習數學時,知其然,更要知其所以然。不要死記硬背公式定理,理解背後的數學思想才是關鍵。如果你能畫一幅圖、用大白話描述清楚一個公式、一則定理,這就說明你真正理解了它。 數學是語言。就好比世界各地不同種族有自己的語言,數學則是人類共同的語言和邏輯。數學這門語言極其精準、高度抽象,放之四海而皆準。雖然我們中大多數人沒有被數學「女神」選中,不能為人類對數學認知開疆擴土;但是,這絲毫不妨礙我們使用數學這門語言。就好比,我們不會成為語言學家,我們完全可以使用母語和外語交流。 數學是系統。代數、幾何、線性代數、微積分、機率統計、最佳化方法等,看似一個個孤島,實際上都是數學網路的一條條織線。建議大家學習時,特別關注不同數學板塊之間的聯繫,見樹,更要見林。 數學是基石。拿破崙曾說「數學的日臻完善和國強民富息息相關。」數學是科學進步的根基,是經濟繁榮的支柱,是保家衛國的武器,是探索星辰大海的航船。 數學是藝術。數學和音樂、繪畫、建築一樣,都是人類藝術體驗。透過視覺化工具,我們會在看似枯燥的公式、定理、資料背後,發現數學之美。 數學是歷史,是人類共同記憶體。「歷史是過去,又屬於現在,同時在指引未來。」數學是人類的集體學習思考,它把人的思維符號化、形式化,進而記錄、累積、傳播、創新、發展。從甲骨、泥板、石板、竹簡、木牘、紙草、羊皮卷、活字印刷、紙質書,到數位媒介,這一過程持續了數千年,至今綿延不息。 數學是無窮無盡的想像力,是人類的好奇心,是自我挑戰的毅力,是一個接著一個的問題,是看似荒誕不經的猜想,是一次次膽大包天的批判性思考,是敢於站在前人臂膀之上的勇氣,是孜孜不倦地延展人類認知邊界的不懈努力。 |