Name: Python網路爬蟲：大數據擷取、清洗、儲存與分析 王者歸來(第二版) DM2158
SKU: DM2158
Availability: InStock

描述

內容簡介

Python網路爬蟲

大數據擷取、清洗、儲存與分析

王者歸來(第二版)

★★★本書第一版是【博客來2020年】【電腦書年度暢銷榜第3名】★★★

★★★★★【26個主題】+【400個實例】★★★★★

★★★★★從【零】開始的【網路爬蟲入門書籍】★★★★★

★★★★★大數據【擷取】、【清洗】、【儲存與分析】★★★★★

★★★★★【網路趨勢】+【了解輿情】★★★★★

第二版和第一版做比較，增加下列內容：

★：全書增加約50個程式實例

★：網路趨勢，了解輿情

★：網路關鍵字查詢

★：YouBike資訊

★：國際金融資料查詢

★：博客來圖書排行榜

★：中央氣象局

★：租屋網站

★：生活應用

下列是本書有關網路爬蟲知識的主要內容：

★：認識搜尋引擎與網路爬蟲

★：認識約定成俗的協議robots.txt

★：從零開始解析HTML網頁

★：認識與使用Chrome開發人員環境解析網頁

★：認識Python內建urllib、urllib2模組，同時介紹好用的requests模組

★：說明lxml模組

★：Selenium模組

★：XPath方法解說

★：css定位網頁元素

★：Cookie觀念

★：自動填寫表單

★：使用IP代理服務與實作

★：偵測IP

★：更進一步解說更新的模組Requests-HTML

★：認識適用大型爬蟲框架的Scrapy模組

在書籍內容，筆者設計爬蟲程式探索下列相關網站：

☆：國際與國內股市資訊

☆：基金資訊

☆：股市數據

☆：人力銀行

☆：維基網站

☆：主流媒體網站

☆：政府開放數據網站

☆：YouBike服務網站

☆：PTT網站

☆：電影網站

☆：星座網站

☆：小說網站

☆：博客來網站

☆：中央氣象局

☆：露天拍賣網站

☆：httpbin網站

☆：python.org網站

☆：github.com網站

☆：ipstack.com網站API實作

☆：Google API實作

☆：Facebook API實作

探索網站成功後，筆者也說明下列如何下載或儲存不同資料格式的數據：

★：CSV檔案格式

★：JSON檔案格式

★：XML、Pickle

★：Excel

★：SQLite

在設計爬蟲階段我們可能會碰上一些技術問題，筆者也以實例解決下列相關問題：

☆：URL編碼與中文網址觀念

☆：將中文儲存在JSON格式檔案

☆：亂碼處理

☆：簡體中文在繁體中文Windows環境資料下載與儲存

☆：解析Ajax動態加載網頁，獲得更多頁次資料

☆：使用Chromium瀏覽器協助Ajax動態加載

作者

洪錦魁

一位跨越電腦作業系統與科技時代的電腦專家，著作等身的作家。
■ DOS 時代他的代表作品是 IBM PC 組合語言、C、C++、Pascal、資料結構。
■ Windows 時代他的代表作品是 Windows Programming 使用 C、Visual Basic。
■ Internet 時代他的代表作品是網頁設計使用 HTML。
■ 大數據時代他的代表作品是 R 語言邁向 Big Data 之路。
■ 人工智慧時代他的代表作品是機器學習彩色圖解 + 基礎數學與基礎微積分 + Python實作。

除了作品被翻譯為簡體中文、馬來西亞文外，2000 年作品更被翻譯為Mastering　HTML 英文版行銷美國，近年來作品則是在北京清華大學和台灣深智同步發行：

1：Java 入門邁向高手之路王者歸來
2：Python 最強入門邁向頂尖高手之路王者歸來
3：Python 最強入門邁向數據科學之路王者歸來
4：Python 網路爬蟲：大數據擷取、清洗、儲存與分析王者歸來
5：演算法最強彩色圖鑑 + Python 程式實作王者歸來
6：網頁設計HTML+CSS+JavaScript+jQuery+Bootstrap+Google Map 王者歸來
7：機器學習彩色圖解 + 基礎數學篇 + Python 實作王者歸來
8：機器學習彩色圖解 + 基礎微積分篇 + Python 實作王者歸來
9：R 語言邁向Big Data 之路
10：Excel 完整學習邁向最強職場應用王者歸來

他的近期著作分別登上天瓏、博客來、Momo 電腦書類暢銷排行榜第一名，他的書著作最大的特色是，所有程式語法會依特性分類，同時以實用的程式範例做解說，讓整本書淺顯易懂，讀者可以由他的著作事半功倍輕鬆掌握相關知識。

第零章　認識網路爬蟲

0-1 認識HTML

0-2 網路地址URL

0-3 爬蟲的類型

0-4 搜尋引擎與爬蟲原理

0-5 網路爬蟲的搜尋方法

0-6 網路爬蟲是否合法

0-7 認識HTTP 與HTTPS

0-8 表頭(headers)

第一章　JSON 資料與繪製世界地圖

1-1 JSON 資料格式前言

1-2 認識json 資料格式

1-3 將Python 應用在json 字串形式資料

1-4 將Python 應用在json 檔案

1-5 簡單的json 檔案應用

1-6 世界人口數據的json 檔案

1-7 繪製世界地圖

1-8 XML

第二章　使用Python 處理CSV 文件

2-1 建立一個CSV 文件

2-2 用記事本開啟CSV 檔案

2-3 csv 模組

2-4 讀取CSV 檔案

2-5 寫入CSV 檔案

2-6 寫入與讀取含中文的 CSV 文件

2-7 專題—使用 CSV 檔案繪製氣象圖表

2-8 pickle 模組

2-9 Python 與Microsoft Excel

第三章　網路爬蟲基礎實作

3-1 上網不再需要瀏覽器了

3-2 下載網頁資訊使用 requests 模組

3-3 檢視網頁原始檔

3-4 分析網站使用Chrome 開發人員工具

3-5 下載網頁資訊使用urllib 模組

3-6 認識httpbin 網站

3-7 認識Cookie

3-8 設置代理IP

第四章　Pandas 模組

4-1 Series

4-2 DataFrame

4-3 基本Pandas 資料分析與處理

4-4 檔案的輸入與輸出

4-5 Pandas 繪圖

4-6 時間序列(Time Series)

4-7 專題—鳶尾花

4-8 專題—匯入網頁表格資料

第五章　BeautifulSoup 解析網頁

5-1 解析網頁使用BeautifulSoup 模組

5-2 其它HTML 文件解析

5-3 網路爬蟲實戰—圖片下載

5-4 網路爬蟲實戰—找出台灣彩券公司最新一期威力彩開獎結果

5-5 網路爬蟲實戰—列出Yahoo 焦點新聞標題和超連結

5-6 IP 偵測網站 FileFab

第六章　網頁自動化

6-1 hashlib 模組

6-2 環保署空氣品質JSON 檔案實作

6-3 檢測網站內容是否更新

6-4 工作排程與自動執行

6-5 環保署空氣品質的CSV 檔案

第七章　Selenium 網路爬蟲的王者

7-1 順利使用Selenium 工具前的安裝工作

7-2 獲得webdriver 的物件型態

7-3 擷取網頁

7-4 尋找HTML 文件的元素

7-5 XPath 語法

7-6 用Python 控制點選超連結

7-7 用Python 填寫表單和送出

7-8 用Python 處理使用網頁的特殊按鍵

7-9 用Python 處理瀏覽器運作

7-10 自動化下載環保署空氣品質資料

第八章　PTT 爬蟲實戰

8-1 認識批踢踢實業坊

8-2 進入PTT 網址

8-3 解析PTT 進入須滿18 歲功能鈕

8-4 各篇文章的解析

8-5 解析文章標題與作者

8-6 推文數量

8-7 文章發表日期

8-8 將PTT 目前頁面內容以JSON 檔案儲存

8-9 前一頁面處理的說明

8-10 進入PPT 的beauty 論壇網站

8-11 ipstack

第九章　Yahoo 奇摩電影網站

9-1 本週新片

9-2 中文片名和英文片名

9-3 上映日期

9-4 期待度

9-5 影片摘要

9-6 劇照海報

9-7 爬取兄弟節點

9-8 預告片

9-9 排行榜

第十章　台灣主流媒體網站

10-1 蘋果日報

10-2 聯合報

10-3 經濟日報

10-4 中國時報

10-5 工商時報

第十一章　Python 與SQLite 資料庫

11-1 SQLite 基本觀念

11-2 資料庫連線

11-3 SQLite 資料類型

11-4 建立SQLite 資料庫表單

11-5 增加SQLite 資料庫表單紀錄

11-6 查詢SQLite 資料庫表單

11-7 更新SQLite 資料庫表單紀錄

11-8 刪除SQLite 資料庫表單紀錄

11-9 DB Browser for SQLite

11-10 將台北人口數儲存SQLite 資料庫

第十二章　股市數據爬取與分析

12-1 證券櫃檯買賣中心

12-2 台灣證券交易所

12-3 Yahoo 股市資訊

12-4 台灣股市資料讀取與圖表製作

12-5 國際股市數據爬取

第十三章　金融資訊的應用

13-1 台灣銀行利率查詢

13-2 取得HTML 文件

13-3 分析HTML 文件

13-4 將利率表儲存成CSV 檔案

13-5 取得最優惠利率

13-6 基金資料

第十四章　YouBike 數據

14-1 台北市的YouBike 數據

14-2 認識YouBike 的JSON 數據

14-3 下載與儲存YouBike 資料

14-4 獲得天母運動公園的YouBike 數據

14-5 計算YouBike 車輛使用效率

第十五章　星座屋網站

15-1 進入星座屋網站

15-2 分析網站與爬取星座運勢文字

15-3 星座圖片的下載

第十六章　小說網站

16-1 進入小說網站

16-2 解析網站

16-3 處理編碼問題

16-4 爬取書籍章節標題

16-5 爬取章節內容的連結

16-6 從章節超連結輸出小說內容

16-7 將小說內文存入檔案

第十七章　台灣高鐵與中央氣象局數據

17-1 台灣高鐵

17-2 中央氣象局

第十八章　維基百科

18-1 維基百科的中文網址

18-2 爬取台積電主文資料

18-3 台積電的簡史

18-4 URL 編碼

第十九章　Python 與Facebook

19-1 Facebook 圖形API

19-2 facebook-sdk 存取資料的應用

第二十章　Google API

20-1 申請Google API 金鑰

20-2 基本操作Google Map

20-3 爬蟲擷取Google 地理資訊

20-4 地理資訊的基本應用

20-5 找尋指定區域內的景點

第二十一章　Yahoo 拍賣網站

21-1 Yahoo 拍賣網站

21-2 分析網頁與單個商品搜尋

21-3 系列商品搜尋

第二十二章　日常生活的應用

22-1 租房資訊

22-2 台鐵網站

22-3 博客來電腦書排行榜

第二十三章　網路趨勢

23-1 使用Google Trends

23-2 執行搜尋

23-3 使用pytrends 模組

23-4 每天或今天搜尋熱門的關鍵字

23-5 年度熱門搜尋的關鍵字

23-6 查詢同時列出建議關鍵字

23-7 查詢關鍵字的相關查詢

23-8 查詢關鍵字的相關主題

23-9 關鍵字熱門搜尋區域

第二十四章　Requests-HTML 模組

24-1 安裝與導入

24-2 使用者請求Session

24-3 認識回傳資料型態與幾個重要屬性

24-4 數據清洗與爬取

24-5 搜尋豆瓣電影網站

24-6 Ajax 動態數據加載

第二十五章　人力銀行網站

25-1 認識人力銀行網頁

25-2 分析與設計簡單的爬蟲程式

25-3 更進一步分析網頁

第二十六章　Scrapy

26-1 安裝Scrapy

26-2 從簡單的實例開始—建立Scrapy 專案

26-3 Scrapy 定位元素

26-4 使用cookie 登入

26-5 保存文件為JSON 和CSV 檔案

26-6 Scrapy 架構圖

26-7 專題—爬取多頁PTT 資料

序

這是一本使用Python從零開始指導讀者的網路爬蟲入門書籍，全書以約404個程式實例，完整解說大數據擷取、清洗、儲存與分析相關知識，若是和第一版做比較，這本書增加下列內容：

1：全書增加約50個程式實例

2：網路趨勢與網路關鍵字查詢

3：國際金融資料查詢

4：YouBike

5：博客來圖書排行榜

6：租房網站

7：中央氣象局

8：生活應用

在Internet時代，所有數據皆在網路呈現，從網路獲得資訊已經成為我們日常生活的一部份。然而如何從網路上獲得隱性的數據資訊，更進一步做將此數據資訊做擷取、清洗、儲存與分析的有效應用，已經是資訊科學非常重要的領域，目前國內作者這方面著作不多，同時內容單薄，這也是筆者撰寫本書的動力。本書保持筆者一貫特色，實例豐富，容易學習，有系統的一步一步引導讀者深入不同網站主題，進行探索，下列是本書有關網路爬蟲知識的主要內容。

認識搜尋引擎與網路爬蟲
認識約定成俗的協議txt
從零開始解析HTML網頁
認識與使用Chrome開發人員環境解析網頁
認識Python內建urllib、urllib2模組，同時介紹好用的requests模組
說明lxml模組

■ Selenium模組

■ XPath方法解說

■ css定位網頁元素

■ Cookie觀念

■ 自動填寫表單

■ 使用IP代理服務與實作

■ 偵測IP

■ 更進一步解說更新的模組Requests-HTML

■ 認識適用大型爬蟲框架的Scrapy模組

在書籍內容，筆者設計爬蟲程式探索下列相關網站。

國際與國內股市資訊
基金資訊
股市數據
人力銀行
維基網站
主流媒體網站
政府開放數據網站

■ YouBike服務網站

■ PTT網站

■ 電影網站

■ 星座網站

■ 小說網站

■ 博客來網站

■ 中央氣象局

■ 露天拍賣網站

■ httpbin網站

■ python.org網站

■ github.com網站

■ ipstack.com網站API實作

■ Google API實作

■ Facebook API實作

探索網站成功後，筆者也說明下列如何下載或儲存不同資料格式的數據。

■ CSV檔案格式

■ JSON檔案格式

■ XML、Pickle

■ Excel

■ SQLite

在設計爬蟲階段我們可能會碰上一些技術問題，筆者也以實例解決下列相關問題。

■ URL編碼與中文網址觀念

■ 將中文儲存在JSON格式檔案

■ 亂碼處理

■ 簡體中文在繁體中文Windows環境資料下載與儲存

■ 解析Ajax動態加載網頁，獲得更多頁次資料

■ 使用Chromium瀏覽器協助Ajax動態加載

註：讀者需了解網路爬蟲是針對特定網站擷取特定資料，本書所有程式雖經測試，在撰寫當下是正確，筆者同時列出執行結果。但是，如果網站結構改變，可能造成程式失效。

寫過許多的電腦書著作，本書沿襲筆者著作的特色，程式實例豐富，相信讀者只要遵循本書內容必定可以在最短時間精通Python網路爬蟲設計，編著本書雖力求完美，但是學經歷不足，謬誤難免，尚祈讀者不吝指正。

洪錦魁2021-10-15

jiinkwei@me.com

教學資源說明

教學資源有教學投影片，內容超過1500頁。

如果您是學校老師同時使用本書教學，歡迎與本公司聯繫，本公司將提供教學投影片。請老師聯繫時提供任教學校、科系、Email、和手機號碼，以方便深智數位股份有限公司業務單位協助您。

臉書粉絲團

歡迎加入：王者歸來電腦專業圖書系列

歡迎加入：iCoding程式語言讀書會(Python, Java, C, C++, C#, JavaScript, 大數據, 人工智慧等不限)，讀者可以不定期獲得本書籍和作者相關訊息。

歡迎加入：穩健精實AI技術手作坊

讀者資源說明

請至本公司網頁https://deepwisdom.com.tw下載本書程式實例。

額外資訊

出版商	深智數位股份有限公司
出版日期	2021年10月19日
語言	繁體中文
頁數	552
ISBN	9789860776478

Python網路爬蟲：大數據擷取、清洗、儲存與分析 王者歸來(第二版) DM2158

描述

額外資訊

相關商品

Python最強入門邁向數據科學之路—王者歸來(全彩印刷第二版) DM1931

科班出身的AI人必修課：OpenCV影像處理 使用 Python DM1921

我Rust我驕傲：生來高人一等的快速優雅語言 DM1902

駭客自首：極惡網路攻擊的內幕技巧 DM1930

大數據資料可視化：Python QT GUI程式設計 DM2006

Android御用語言：用Kotlin豪華開發APP DM1924

Python網路爬蟲：大數據擷取、清洗、儲存與分析王者歸來(第二版) DM2158

科班出身的AI人必修課：OpenCV影像處理使用 Python DM1921