TOP
0
0
【23號簡體館日】限時三天領券享優惠!!
數據科學實戰之網絡爬取:Python實踐和示例(簡體書)
滿額折

數據科學實戰之網絡爬取:Python實踐和示例(簡體書)

人民幣定價:69 元
定  價:NT$ 414 元
優惠價:87360
領券後再享88折
海外經銷商無庫存,到貨日平均30天至45天
可得紅利積點:10 點
相關商品
商品簡介
作者簡介
目次

商品簡介

本書提供了一個完整的、現代的Web抓取指南,使用Python作為編程語言,專為數據科學的讀者編寫,探討了Web抓取和以及其背後的大量Web技術。書中首先簡要概述抓取和現實生活中的用例,解釋了HTTP、HTML和CSS的核心概念作為基礎。*後總結了一些*佳實踐和一系列的例子,這些數據科學用例彙集了你學到的所有知識。讀者將學習到如何利用已建立的*佳實踐和常用的Python包,處理包括JavaScript、Cookie和常見的web抓取技術。

作者簡介

希普‧萬登‧布魯克,比利時魯汶大學經濟與商務學院數據科學方面的助理教授。

目次

譯者序
作者簡介
技術審校者簡介
前言
第一部分 網絡爬取基礎
第1章 簡介2
1.1 什麼是網絡爬取2
1.1.1 網絡爬取為什麼用於數據科學2
1.1.2 誰在使用網絡爬取4
1.2 準備工作6
1.2.1 設置6
1.2.2 Python 快速入門7
第2章 網絡傳輸協議HTTP18
2.1 網絡的魔力18
2.2 超文本傳輸協議20
2.3 Python中的HTTP―Requests庫25
2.4 帶參數的URL查詢字符串28
第3章 HTML和CSS36
3.1 超文本標記語言HTML36
3.2 將瀏覽器用作開發工具38
3.3 層疊樣式表CSS42
3.4 Beautiful Soup庫45
3.5 有關Beautiful Soup的更多內容53
第二部分 高級網絡爬取
第4章 深入挖掘HTTP60
4.1 使用表單和POST請求60
4.2 其他HTTP請求方法71
4.3 關於頭的更多信息73
4.4 使用Cookie79
4.5 requests庫的session對象87
4.6 二進制、JSON和其他形式的內容89
第5章 處理JavaScript93
5.1 什麼是JavaScript93
5.2 爬取JavaScript94
5.3 使用Selenium爬取網頁98
5.4 Selenium的更多信息109
第6章 從網絡爬取到網絡爬蟲115
6.1 什麼是網絡爬蟲115
6.2 使用Python實現網絡爬蟲117
6.3 數據庫存儲120
第三部分 相關管理問題及最佳實踐
第7章 網絡爬取涉及的管理和法律問題130
7.1 數據科學過程130
7.2 網絡爬取適合用於哪裡133
7.3 法律問題134
第8章 結語139
8.1 其他工具139
8.1.1 其他Python庫139
8.1.2 Scrapy庫140
8.1.3 緩存140
8.1.4 代理服務器141
8.1.5 基於其他編程語言的爬取141
8.1.6 命令行工具142
8.1.7 圖形化的爬取工具142
8.2 最佳實踐和技巧143
第9章 示例147
9.1 爬取Hacker News網頁148
9.2 使用Hacker News API150
9.3 爬取引用信息 150
9.4 爬取書籍信息154
9.5 爬取GitHub上項目被收藏的次數156
9.6 爬取抵押貸款利率160
9.7 爬取和可視化IMDB評級165
9.8 爬取IATA航空公司信息166
9.9 爬取和分析網絡論壇的互動171
9.10 收集和聚類時尚數據集177
9.11 Amazon評論的情感分析180
9.12 爬取和分析維基百科關聯圖188
9.13 爬取和可視化董事會成員圖194
9.14 使用深度學習破解驗證碼圖片197

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 360
海外經銷商無庫存,到貨日平均30天至45天

暢銷榜

客服中心

收藏

會員專區