Name: 超越多顯卡多機器：分散式機器學習超速實戰DM2163
SKU: DM2163
Availability: InStock

描述

內容簡介

在Hadoo/Spark/Mahout/Tensorflow上跑多機器多片GPU的機器學習

機器學習在神經網路和GPU流行起來之後大放異彩，連販夫走足都CNN/RNN朗朗上口，然而許多企業/研究機關/學校在花了大筆預算購買昂貴的硬體時，卻不知如何採購，更不用說如何應用這些硬體來進行研發或產品開發了。本書作者是知名電商的創辦人，其不止在機器學習上有十足的實務經驗，在面對大量資料的場景下，更能利用前人的智慧，用上了Big Data最流行的Hadoop/Spark平台。尤有甚者，在新一代的AI函數庫面世時，也能充分利用這些函數庫的GPU加速，將多機器，多GPU的資源應用在大型專案上。

▌業界獨有

全書以Hadoop/Spark為基礎，加上使用了最流行的TensorFlow on Hadoop，更使用了分散式系統最老牌的Mahout，有別於一般只介紹Python/TensorFlow的坊間書籍，是市場上唯一僅有完整從Hadoop一直延伸到神經網路。

▌內容完整豐富

本書以分散式機器學習為主線，以實戰為主要目的。共分為8章，分別介紹網際網路公司巨量資料和人工智慧、巨量資料演算法系統架構、巨量資料基礎、Docker容器、Mahout分散式機器學習平台、Spark分散式機器學習平台、分散式深度學習實戰、完整工業級系統實戰（推薦演算法系統實戰、人臉辨識實戰、對話機器人實戰）等內容。

適合讀者

適合分散式機器學習的初學者閱讀，對於有一定經驗的分散式巨量資料方向的從業人員及演算法工程師，也可以從書中獲取很多有價值的知識，並透過實戰專案更佳地理解分散式機器學習的核心內容。

作者

陳敬雷

充電了麼創始人。擁有十幾年互聯網從業經驗，在技術領域，尤其在大數據和人工智慧方向有豐富的演算法工程落地實戰經驗。目前專注於大數據和人工智慧驅動的上班族線上教育行業，研發了充電了麼App，用深度學習演算法、NLP、推薦引擎等技術來高效提升線上學習效率。

第1 章網際網路公司巨量資料和人工智慧那些事

1.1 巨量資料和人工智慧在網際網路公司扮演的角色和重要性

1.2 巨量資料部門組織架構和各種職務介紹

第2 章巨量資料演算法系統架構

2.1 經典應用場景

2.2 應用系統架構設計

第3 章巨量資料基礎

3.1 Hadoop 巨量資料平台架設

3.2 Hive 資料倉儲實戰

3.3 HBase 實戰

3.4 Sqoop 資料ETL 工具實戰

3.5 Spark 基礎

第4 章 Docker 容器

4.1 Docker 介紹

4.2 Docker 容器部署

第5 章 Mahout 分散式機器學習平台

5.1 Mahout 採擷平台

5.2 Mahout 機器學習演算法

第6 章 Spark 分散式機器學習平台

6.1 Spark 機器學習函數庫

6.2 各個演算法介紹和程式設計實戰

第7 章分散式深度學習實戰

7.1 TensorFlow 深度學習框架

7.2 MXNet 深度學習框架

7.3 神經網路演算法

第8 章完整工業級系統實戰

8.1 推薦演算法系統實戰

8.2 人臉辨識實戰

8.3 對話機器人實戰

參考文獻

序

網際網路技術的發展催生了巨量資料平台，尤其公司巨量資料部門基本是以Hadoop巨量資料平台為基礎，在這之上透過機器學習建模、演算法工程落地成產品，透過資料分析進行巨量資料視覺化展示來影響管理層決策。另外，以資料和機器學習來科學地驅動產品設計也成為主流。隨著巨量使用者資料的累積，傳統單機版機器學習框架已經不能滿足資料日益增長的需求，於是分散式機器學習應運而生。本書以分散式機器學習為主線，對目前主流的分散式機器學習框架和演算法進行重點講解，偏重實戰，最後是幾個工業級的系統實戰專案。

全書共分為8章，分別介紹網際網路公司巨量資料和人工智慧、巨量資料演算法系統架構、巨量資料基礎、Docker容器、Mahout分散式機器學習平台、Spark分散式機器學習平台、分散式深度學習實戰、完整工業級系統實戰（推薦演算法系統實戰、人臉辨識實戰、對話機器人實戰）等內容。

第1章介紹了巨量資料常用框架及人工智慧的常用演算法，並且對公司實際的巨量資料部門組織架構，以及每個職務的技能要求、發展方向、市場薪資水準等都做了介紹，這一章可以幫助讀者從整體上認識巨量資料和人工智慧的常用技術框架和演算法，以及公司的實際工作場景。第2章介紹應用場景，並且對個性化推薦系統、個性化搜索、人物誌系統的架構原理做了深入的講解，方便從整體上把握一個完整的系統，提高系統架構設計能力，並指導讀者針對某個系統模組應該掌握哪些核心技術。第3章講解巨量資料基礎，為後面的分散式機器學習平台打基礎。第4章講解Docker容器，可以幫讀者快速建構標準化運行環境，以便節省時間和簡化部署。第5章講解的Mahout分散式機器學習是基於Hadoop的MapReduce計算引擎來分散式訓練的。第6章介紹Spark如何讀取Hadoop分散式儲存檔案系統HDFS上的資料在記憶體裡做疊代計算，以此提高訓練性能。第7章介紹基於TensorFlow和MXNet框架基礎上的神經網路演算法如何讀取Hadoop的HDFS資料，如何使用Kubernetes管理叢集進行分散式訓練。第5~7章是本書分散式機器學習的主線。第8章突出本書的實戰性，尤其是推薦系統的實戰，能讓讀者完整地認識實際工作中的系統產品是怎樣來做的，以便快速地投入到實際工作中去。

陳敬雷