特價 -20%

Generative AI – Diffusion Model擴散模型現場實作精解DM2416

原始價格:NT$720。目前價格:NT$576。

出版商 深智數位股份有限公司
出版日期 2024年03月20日
語言 繁體中文
頁數 232
ISBN 9786267383414
Add to Wishlist
貨號: DM2416 Category:

描述

內容簡介

☆最流行的AIGC技術介紹

☆Diffusion Model的基礎

☆擴散模型的高效採樣

☆擴散模型的似然最大化

☆將擴散模型應用於具有特殊結構的資料

☆擴散模型與其他生成模型的連結

☆擴散模型的應用

☆GPT及大型語言模型

人工智慧創造內容的浪潮已來臨,其中包括兩項關鍵技術:大模型技術(如ChatGPT)和擴散模型技術(如Midjourney等AI繪畫)。這些技術背後的深度生成模型可以根據現有資料和程式生成新資料。在現實世界中,資料通常維度高、分佈複雜,尤其是圖像資料,它們在二維空間中的像素點之間存在著複雜的互動關係。這對傳統模型擬合資料分佈提出了挑戰。人們希望AI生成的內容既真實又新穎,不僅是複製既有內容。擴散模型能夠捕捉複雜的資料分佈,產生真實且創新的內容,並實現高效的個性化生產,因此受到廣泛關注。本書為少數從理論及實作上都兼顧的教材,對當今AI狂潮席捲的新時代來說,不想被AI取代的你,這本書是最好的起點。

本書介紹了許多當今重要擴散模型的技術,第1章介紹AIGC與相關技術,第2章從三個角度介紹擴散模型的基本理論、演算法,此外介紹了擴散模型的神經網路架構和程式實踐。第3章、第4章、第5章分別從擴散模型的高效採樣、擴散模型的似然最大化、將擴散模型應用於具有特殊結構的資料三個方面系統介紹擴散模型的特點,以及後續的改進工作。第6章討論了擴散模型與其他生成模型的連結,包括變分自編碼器、生成對抗網路、歸一化流、自回歸模型和基於能量的模型。第7章介紹了擴散模型的應用。第8章討論了擴散模型的未來——GPT及和大型語言模型。

作者簡介

楊靈

北京大學博士在讀,研究興趣是機器學習和生成式AI,作為第一作者在ICML、CVPR等人工智慧頂會、頂刊發表過多篇論文,長期擔任TPAMI、ICML、NeurIPS、CVPR、KDD、AAAI等多個頂級學術會議或期刊的程式委員會成員、審稿人。現與OpenAI、史丹佛大學等AI研究機構進行長期的科研合作。曾獲北京大學國家獎學金、學術創新獎、三好學生等獎項。

 

張至隆

北京大學碩士在讀,本科畢業於北京大學數學科學學院,研究興趣是擴散模型。曾獲北京大學國琴獎學金、優秀畢業生、三好學生等獎項。

 

張文濤

蒙特利爾學習演算法研究所(Mila)博士後研究員。博士畢業於北京大學電腦學院,師從崔斌教授。研究興趣為大規模圖學習,作為第一作者在機器學習、資料採擷和資料庫等領域發表論文10餘篇。曾獲Apple PhD Fellowship、WAIC雲帆獎和北京大學優秀博士學位論文等獎項。

 

崔斌

北京大學電腦學院教授、博士生導師、北京大學電腦學院副院長。擔任中國電腦學會資料庫專委會副主任,VLDB理事會理事,IEEE TKDE、VLDB Journal、DAPD等國際期刊編委。中國電腦學會傑出會員、IEEE高級會員、ACM會員,2016年入選教育部長江學者特聘教授。

目錄

第1章  AIGC與相關技術

1.1  AIGC簡介

1.2  擴散模型簡介

 

第2章  擴散模型基礎     

2.1  去噪擴散機率模型

2.2  基於分數的生成模型

2.3  隨機微分方程

2.4  擴散模型的架構

 

第3章  擴散模型的高效採樣   

3.1  微分方程

3.2  確定性採樣

3.2.1  SDE求解器

3.2.2  ODE求解器

3.3  基於學習的採樣

3.3.1  離散方式

3.3.2  截斷擴散

3.3.3  知識蒸餾

 

第4章  擴散模型的似然最大化

4.1  似然函數最大化

4.2  加噪策略最佳化

4.3  逆向方差學習

4.4  精確的對數似然估計

 

第5章  將擴散模型應用於具有特殊結構的資料

5.1  離散資料

5.2  具有不變性結構的資料

5.3  具有流形結構的資料

5.3.1  流形已知

5.3.2  流形未知

 

第6章  擴散模型與其他生成模型的連結  

6.1  變分自編碼器與擴散模型

6.2  生成對抗網路與擴散模型

6.3  歸一化流與擴散模型

6.4  自回歸模型與擴散模型

6.5  基於能量的模型與擴散模型

 

第7章  擴散模型的應用  

7.1  無條件擴散模型與條件擴散模型

7.2  電腦視覺

7.2.1  影像超解析度、影像修復和影像翻譯

7.2.2  語義分割

7.2.3  視訊生成

7.2.4  點雲補全和點雲生成

7.2.5  異常檢測

7.3  自然語言處理

7.4  時間資料建模

7.4.1  時間序列插補

7.4.2  時間序列預測

7.5  多模態學習

7.5.1  文字到影像的生成

7.5.2  文字到音訊的生成

7.5.3  場景圖到影像的生成

7.5.4  文字到3D內容的生成

7.5.5  文字到人體動作的生成

7.5.6  文字到視訊的生成

7.6  堅固學習

7.7  跨學科應用

7.7.1  人工智慧藥物研發

7.7.2  醫學影像

 

第8章  擴散模型的未來——GPT及大模型

8.1  預訓練技術簡介

8.1.1  生成式預訓練和對比式預訓練

8.1.2  並行訓練技術

8.1.3  微調技術

8.2  GPT及大模型

8.2.1  GPT-1

8.2.2  GPT-2

8.2.3  GPT-3和大模型

8.2.4  InstructGPT和ChatGPT

8.2.5  Visual ChatGPT

8.3  基於GPT及大模型的擴散模型

8.3.1  演算法研究

8.3.2  應用範式

 

附錄A  相關資料說明     

 

自AI誕生之始,人們就試圖讓機器生成內容,與其對話。從DALL·E 2、Stable Diffusion、Midjourney等文生圖應用點燃了大眾的熱情,再到ChatGPT的從天而降,更是引發了全民關注。生成式AI是一種特定類型的AI,專注於生成新內容,如文字、影像和音樂。未來,生成式AI很可能會對創意產業產生重大影響。在許多情況下,它可以協助創意人員工作,使他們能夠創造出更多個性化的內容,以及產生新的想法。

 

擴散模型是一類隱變數模型,採用變分推斷估計未知分佈。擴散模型的目標是透過對資料點在隱空間中的擴散方式進行建模,以近似估計資料集的分佈。擴散模型的靈感來自非平衡熱力學,首先定義擴散步驟的馬可夫鏈,逐步將隨機雜訊添加到資料中,然後學習逆向擴散過程從雜訊中構造所需的資料樣本。在電腦視覺中,這表示透過學習逆向擴散過程訓練神經網路,使其可以對疊加了高斯雜訊的影像進行去噪。擴散模型具有廣泛的應用,在影像、3D 內容、視訊、音訊等生成任務中表現出色,同時具有良好的可擴展性。

 

本書作者楊靈等來自北京大學,並長期和史丹佛大學、OpenAI等國內外知名研究機構交流合作。他們在生成式AI和擴散模型等領域有著長期的研究和實踐累積,因此本書呈現的內容具有實用性,可供高等院校電腦科學、人工智慧和醫學、生物學等交叉學科專業的師生,以及相關人工智慧應用程式的開發人員閱讀。

 

朱軍

北京清華大學電腦系教授、北京清華大學人工智慧研究院副院長

額外資訊

出版商

深智數位股份有限公司

出版日期

2024年03月20日

語言

繁體中文

頁數

232

ISBN

9786267383414