網站擷取:使用Python
- ISBN13:9789864761753
- 出版社:美商歐萊禮
- 作者:Ryan Mitchell
- 譯者:STUDIO TIB.
- 裝訂/頁數:平裝/256頁
- 規格:23cm*18.4cm*1.6cm (高/寬/厚)
- 版次:1
- 出版日:2016/10/13
相關商品
商品簡介
目次
商品簡介
內容簡介:在現代網路蒐集資料 「本書涵蓋的工具與範例,讓我輕易把好幾個重複的工作自動化,騰出時間解決更多有趣的問題。這是本重視成果、內容從實務問題與解法出發,又能很快讀完的好書。」 — Eric VanWyk, 電子計算機工程師,麻州歐林工程學院 學會網頁搜刮(scraping)及爬行(crawling)技術,就能從任何網站來源取得任意格式的無限量資料。您可以從這本實務指南學到如何使用Python與web APIs,同時從上千,甚至上百萬的網頁之中獲取並處理資料。 本書適合會寫Python的程式設計者、網路安全工作者以及網站管理者閱讀。不僅會提到網頁搜刮的基本機制,還會提到一些進階主題,像是分析原始資料,或是利用搜刮工具進行網站前端測試。本書也將提供程式範例協助您從實務的角度理解觀念。 •學會如何解析複雜的HTML頁面 •走訪許多頁面與網站 •掌握APIs的概觀以及它們如何運作 •學會多種儲存搜刮來的資料的方式 •下載文件並讀取內容,從中擷取資料 •使用工具與技巧整理格式雜亂的原始資料 •讀寫自然語言 •爬過表單與登入頁 •瞭解如何搜刮JavaScript •學會影像處理與文字識別
目次
章節說明:第一部分 建構 Scraper 第一章 您的第一個 Scraper 第二章 進階 HTML 解析第三章 開始爬行第四章 使用 API 第五章 儲存資料第六章 讀取文件 第二部分 進階 Scraping 第七章 清理您的髒資料第八章 讀寫自然語言第九章 爬過表單與登入頁第十章 搜刮 JavaScript 第十一章 影像處理與文字辨識第十二章 避開 Scraping 陷阱第十三章 以 Scrapers 測試您的網站第十四章 遠端 Scraping 附錄A Python 概覽 附錄B Internet 概覽附錄C 擷取網頁時的法律與道德考量
主題書展
更多書展本週66折
您曾經瀏覽過的商品
購物須知
為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。
若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。