網站擷取：使用Python（第二版）

ISBN13：9789864769261
出版社：美商歐萊禮
作者：Ryan Mitchell
譯者：楊尊一
裝訂／頁數：平裝／280頁
規格：23cm*18.5cm*1.7cm (高/寬/厚)
重量：624克
版次：1
出版日：2018/10/09
關鍵字：網站擷取：使用Python（第二版）、網站、擷取、使用、 Python、電腦程式語言、美商歐萊禮、 Ryan Mitchell、

定價：NT$ 580 元

優惠價：90 折 522 元

領券後再享88折

領

團購優惠券A

8本以上且滿1500元
再享89折，單本省下57元

領

庫存：1

可得紅利積點：15 點

相關商品

商品簡介

作者簡介

商品簡介

在現代網路蒐集資料

「本書涵蓋的工具與範例，讓我輕易把好幾個重複的工作自動化，騰出時間解決更多有趣的問題。這是本重視成果、內容從實務問題與解法出發，又能很快讀完的好書。」
— Eric VanWyk, 電子計算機工程師，麻州歐林工程學院

如果程式設計是魔術，那麼網站擷取當然是一種魔法。你可以撰寫簡單的自動化程式查詢網頁伺服器、請求資料、並解析所需的資訊。本書不只介紹網頁擷取，還包含擷取各種現代網站資料的詳盡指南。

本書第一部份專注於網站擷取機制：使用Python從網頁伺服器取得資料、執行伺服器回應的基本處理工作、以及與網站的自動化互動。第二部分探索適用於不同擷取場景的各種工具與應用程式。

‧解析複雜HTML網頁
‧以Scrapy架構開發爬行程序
‧學習爬行資料的儲存方式
‧從文件讀取與提煉資料
‧清理格式不良的資料
‧以自然語言讀寫
‧透過表單與登入的爬行
‧JavaScript與API爬行
‧使用影像文字識別軟體
‧避開爬行陷阱與機器人阻擋程序
‧使用爬行程序測試你的網站

作者簡介

Ryan Mitchell 是波士頓HedgeServ的資深軟體工程師，為公司開發API與資料分析工具。她畢業於Olin College of Engineering，取得資工學位與Harvard University Extension School的認證。曾任職於Abine，以Python開發爬行程序與自動化工具。為零售、金融、醫療等產業提供網站擷取專案的顧問服務，並曾在Northeastern University與Olin College of Engineering擔任課程顧問和兼職教員。

第二部儲存資料
第七章讀取文件
第八章清理髒資料
第九章讀寫自然語言
第十章表單與登入
第十一章與擷取相關的JavaScript
第十二章透過API 爬行
第十三章影像處理與文字辨識
第十四章避開擷取陷阱
第十五章以爬行程序測試你的網站
第十六章平行擷取網站
第十七章遠端擷取
第十八章網站擷取的法規與道德

索引