TOP
0
0
【簡體曬書區】 單本79折,5本7折,活動好評延長至5/31,趕緊把握這一波!
Webbots、Spiders和Screen Scrapers:技術解析與應用實踐(簡體書)
滿額折

Webbots、Spiders和Screen Scrapers:技術解析與應用實踐(簡體書)

人民幣定價:69 元
定價
:NT$ 414 元
優惠價
87360
領券後再享88折
海外經銷商無庫存,到貨日平均30天至45天
可得紅利積點:10 點
相關商品
商品簡介
名人/編輯推薦
目次

商品簡介

《Webbots、Spiders和ScreenScrapers:技術解析與應用實踐》是Webbots(網絡機器人)、Spiders(蜘蛛)、ScreenScrapers(抓屏器)領域的權威著作,在國際安全領域被廣泛認可,是資深網絡安全專家15年工作經驗的結晶。不僅全面而詳細地解析了Webbots、Spiders和ScreenScrapers的技術原理和高級技巧,而且以案例的方式講解了9種常用網絡機器人的設計和開發方法,可操作性極強。除了有豐富的理論和實踐內容外,《Webbots、Spiders和ScreenScrapers:技術解析與應用實踐》還介紹了商業用途的思路,不厭其煩地告誡開發者如何開發出遵紀守法且不干擾網絡的具有建設性的網絡機器人。
《Webbots、Spiders和ScreenScrapers:技術解析與應用實踐》31章,分為4個部分:第一部分(1~7章),系統全面地介紹了與Webbots、Spiders、ScreenScrapers相關的各種概念和技術原理,是瞭解和使用它們必須掌握的基礎知識;第二部分(8~16章),以案例的形式仔細地講解了價格監控、圖片抓取、搜索排名檢測、信息聚合、FTP信息、閱讀與發送電子郵件等9類常見機器人的設計與開發方法,非常具備實戰指導意義;第三部分(17~25章),總結和歸納了大量的高級技巧,包括蜘蛛程序的設計方法、採購機器人和秒殺器、相關的密碼學、認證方法、高級cookie管理、如何計劃運行網絡機器人和蜘蛛、使用瀏覽器宏抓取怪異的網站、修改iMacros,等等;第四部分(26~31章)是拓展知識,包含如何設計隱蔽的網絡機器人和蜘蛛、編寫容錯的網絡機器人、設計網絡機器人青睞的網站、消滅蜘蛛、相關的法律知識等。

名人/編輯推薦

大數據時代,網絡上可供利用的數據信息越來越豐富,如果能利用網絡機器人來自動收集和處理有價值的數據,將幫助企業獲得商業上的戰略優勢,斯昆克等編著的《Webbots Spiders和Screen Scrapers(技術解析與應用實踐原書第2版)》詳細講解如何設計和開發高效、強大的網絡機器人來幫助企業達到這一目的。本書作者在該領域有著深入的研究和豐富的實戰經驗,他系統地講解了如何設計和開發智能且健壯的網絡機器人,為需要掌握相關知識的讀者提供全面而實用的指導。

目次

譯者序
前言
第一部分基礎概念和技術
第1章本書主要內容
1.1發現互聯網的真正潛力
1.2對開發者來說
1.2.1網絡機器人開發者是緊缺人才
1.2.2編寫網絡機器人是有趣的
1.2.3網絡機器人利用了“建設性黑客”技術
1.3對企業管理者來說
1.3.1為業務定制互聯網
1.3.2充分利用公眾對網絡機器人的經驗不足
1.3.3事半功倍
1.4結論

第2章網絡機器人項目創意
2.1瀏覽器局限性的啟發
2.1.1聚合並過濾相關信息的網絡機器人
2.1.2解釋在線信息的網絡機器人
2.1.3個人代理網絡機器人
2.2從瘋狂的創意開始
2.2.1幫助繁忙的人解脫
2.2.2自動執行,節省開支
2.2.3保護知識產權
2.2.4監視機會
2.2.5在網站上驗證訪問權限
2.2.6創建網上剪報服務
2.2.7尋找未授權的Wi-Fi網絡
2.2.8跟蹤網站技術
2.2.9讓互不兼容的系統通信
2.3結論

第3章下載網頁
3.1當它們是文件,而不是網頁
3.2用PHP的內置函數下載文件
3.2.1用fopen()和fgets()下載文件
3.2.2用file()函數下載文件
3.3PHP/CURL庫介紹
3.3.1多種傳輸協議
3.3.2表單提交
3.3.3基本認證技術
3.3.4cookie
3.3.5重定向
3.3.6代理名稱欺詐
3.3.7上鏈管理
3.3.8套接字管理
3.4安裝PHP/CURL
3.5LIB_http庫
3.5.1熟悉默認值
3.5.2使用LIB_http
3.5.3瞭解更多HTTP標頭信息
3.5.4檢查LIB_http的源代碼
3.6結論

第4章基本解析技術
4.1內容與標簽相混合
4.2解析格式混亂的HTML文件
4.3標準解析過程
4.4使用LIB_parse庫
4.4.1用分隔符分解字符串:split_string()函數
4.4.2提取分隔符之間的部分:return_between()函數
4.4.3將數據集解析到數組之中:parse_array()函數
4.4.4提取屬性值:get_attribute()函數
4.4.5移除無用文本:remove()函數
4.5有用的PHP函數
4.5.1判斷一個字符串是否在另一個字符串裡面
4.5.2用一個字符串替換另一個字符串中的一部分
4.5.3解析無格式文本
4.5.4衡量字符串的相似度
4.6結論
4.6.1別相信編碼混亂的網頁
4.6.2小步解析
4.6.3不要在調試的時候渲染解析結果
4.6.4少用正則表達式

第5章使用正則表達式的高級解析技術
5.1模式匹配——正則表達式的關鍵
5.2PHP的正則表達式類型
5.2.1PHP正則表達式函數
5.2.2與PHP內置函數的相似之處
5.3從例子中學習模式匹配
5.3.1提取數字
5.3.2探測字符串序列
5.3.3字母字符匹配
5.3.4通配符匹配
5.3.5選擇匹配
5.3.6分組和範圍匹配的正則表達式
5.4與網絡機器人開發者相關的正則表達式
5.4.1提取電話號碼
5.4.2下一步學習什麼
5.5何時使用正則表達式
5.5.1正則表達式的長處
5.5.2模式匹配用於解析網頁的劣勢
5.5.3哪個更快,正則表達式還是PHP的內置函數
5.6結論

第6章自動表單提交
6.1表單接口的反向工程
6.2表單處理器、數據域、表單方法和事件觸發器
6.2.1表單處理器
6.2.2數據域
6.2.3表單方法
6.2.4多組件編碼
6.2.5事件觸發器
6.3無法預測的表單
6.3.1JavaScript能在提交之前修改表單
6.3.2表單HTML代碼通常無法閱讀
6.3.3cookie在表單裡不存在,卻會影響其操作
6.4分析表單
6.5結論
6.5.1不要暴露身份
6.5.2正確模擬瀏覽器
6.5.3避免表單錯誤

第7章處理大規模數據
7.1組織數據
7.1.1命名規範
7.1.2在結構化文件裡存儲數據
7.1.3在數據庫裡存儲文本數據
7.1.4在數據庫裡存儲圖片
7.1.5用數據庫,還是用文件系統
7.2減小數據規模
7.2.1保存圖片文件的地址
7.2.2壓縮數據
7.2.3移除格式信息
7.3生成圖片的縮略圖
7.4結論

第二部分網絡機器人項目
第8章價格監控網絡機器人
8.1目標網站
8.2設計解析腳本
8.3初始化以及下載目標網頁
8.4進一步探討

第9章圖片抓取網絡機器人
9.1圖片抓取網絡機器人例子
9.2創建圖片抓取網絡機器人
9.2.1二進制安全下載過程
9.2.2結構
9.2.3主腳本
9.3進一步探討
9.4結論

第10章鏈接校驗網絡機器人
10.1創建鏈接校驗網絡機器人
10.1.1初始化網絡機器人並下載目標網頁
10.1.2設置頁面基準
10.1.3提取鏈接
10.1.4運行校驗循環
10.1.5生成URL完整路徑
10.1.6下載全鏈接路徑
10.1.7展示頁面狀態
10.2運行網絡機器人
10.2.1LIB_http_codes
10.2.2LIB_resolve_addresses
10.3進一步探討

第11章搜索排名檢測網絡機器人
11.1搜索結果頁介紹
11.2搜索排名檢測網絡機器人做什麼工作
11.3運行搜索排名檢測網絡機器人
11.4搜索排名檢測網絡機器人的工作原理
11.5搜索排名檢測網絡機器人腳本
11.5.1初始化變量
11.5.2開始循環
11.5.3獲取搜索結果
11.5.4解析搜索結果
11.6結論
11.6.1對數據源要厚道
11.6.2搜索網站對待網絡機器人可能會不同於瀏覽器
11.6.3爬取搜索引擎不是好主意
11.6.4熟悉GoogleAPI
11.7進一步探討

第12章信息聚合網絡機器人
12.1給網絡機器人選擇數據源
12.2信息聚合網絡機器人舉例
12.2.1熟悉RSS源
12.2.2編寫信息聚合網絡機器人
12.3給信息聚合網絡機器人添加過濾機制
12.4進一步探討

第13章FTP網絡機器人
13.1FTP網絡機器人舉例
13.2PHP和FTP
13.3進一步探討

第14章閱讀電子郵件的網絡機器人
14.1POP3協議
14.1.1登錄到POP3郵件服務器
14.1.2從POP3郵件服務器上讀取郵件
14.2用網絡機器人執行POP3命令
14.3進一步探討
14.3.1電子郵件控制的網絡機器人
14.3.2電子郵件接口

第15章發送電子郵件的網絡機器人
15.1電子郵件、網絡機器人以及垃圾郵件
15.2使用SMTP和PHP發送郵件
15.2.1配置PHP發送郵件
15.2.2使用mail()函數發送電子郵件
15.3編寫發送電子郵件通知的網絡機器人
15.3.1讓合法的郵件不被過濾掉
15.3.2發送HTML格式的電子郵件
15.4進一步探討
15.4.1使用回復郵件剪裁訪問列表
15.4.2使用電子郵件作為你的網絡機器人運行的通知
15.4.3利用無線技術
15.4.4編寫發送短信的網絡機器人

第16章將一個網站轉變成一個函數
16.1編寫一個函數接口
16.1.1定義函數接口
16.1.2分析目標網頁
16.1.3使用describe_zipcode()函數
16.2結論
16.2.1資源分發
16.2.2使用標準接口
16.2.3設計定制的輕量級“Web服務”

第三部分高級設計技巧
第17章蜘蛛
17.1蜘蛛的工作原理
17.2蜘蛛腳本示例
17.3LIB_simple_spider
17.3.1harvest_links()
17.3.2archive_links()
17.3.3get_domain()
17.3.4exclude_link()
17.4使用蜘蛛進行實驗
17.5添加載荷
17.6進一步探討
17.6.1在數據庫中保存鏈接
17.6.2分離鏈接和載荷
17.6.3在多台計算機上分配任務
17.6.4管理頁面請求

第18章採購機器人和秒殺器
18.1採購機器人的原理
18.1.1獲取採購標準
18.1.2認證買家
18.1.3核對商品
18.1.4評估購物觸發條件
18.1.5執行購買
18.1.6評估結果
18.2秒殺器的原理
18.2.1獲取採購標準
18.2.2認證競拍者
18.2.3核對拍賣商品
18.2.4同步時鐘
18.2.5競價時間
18.2.6提交競價
18.2.7評估結果
18.3測試自己的網絡機器人和秒殺器
18.4進一步探討
18.5結論

第19章網絡機器人和密碼學
19.1設計使用加密的網絡機器人
19.1.1SSL和PHP內置函數
19.1.2加密和PHP/CURL
19.2網頁加密的簡要概述
19.3結論

第20章認證
20.1認證的概念
20.1.1在線認證的類型
20.1.2用多種方式加強認證
20.1.3認證和網絡機器人
20.2示例腳本和實踐頁面
20.3基本認證
20.4會話認證
20.4.1使用cookie會話的認證
20.4.2使用查詢會話進行認證
20.5結論

第21章高級cookie管理
21.1cookie的工作原理
21.2PHP/CURL和cookie
21.3網絡機器人設計中面臨的cookie難題
21.3.1擦除臨時性cookie
21.3.2管理多用戶的cookie
21.4進一步探討

第22章計劃運行網絡機器人和蜘蛛
22.1為網絡機器人配置計劃任務
22.2WindowsXP任務調度程序
22.2.1計劃網絡機器人按日運行
22.2.2複雜的計劃
22.3Windows7任務調度程序
22.4非日曆事件觸發器
22.5結論
22.5.1如何決定網絡機器人的最佳運行週期
22.5.2避免單點故障
22.5.3在計劃中加入變化性

第23章使用瀏覽器宏抓取怪異的網站
23.1高效網頁抓取的阻礙
23.1.1AJAX
23.1.2怪異的JavaScript和cookie行為
23.1.3Flash
23.2使用瀏覽器宏解決網頁抓取難題
23.2.1瀏覽器宏的定義
23.2.2模擬瀏覽器的終極網絡機器人
23.2.3安裝和使用iMacros
23.2.4創建第一個宏
23.3結論
23.3.1宏的必要性
23.3.2其他用途

第24章修改iMacros
24.1增強iMacros的功能
24.1.1不使用iMacros腳本引擎的原因
24.1.2創建動態宏
24.1.3自動裝載iMacros
24.2進一步探討

第25章部署和擴展
25.1一對多環境
25.2一對一環境
25.3多對多環境
25.4多對一環境
25.5擴展和拒絕服務攻擊
25.5.1簡易的網絡機器人也會產生大量數據
25.5.2目標的低效
25.5.3過度擴展的弊端
25.6創建多個網絡機器人的實例
25.6.1創建進程
25.6.2利用操作系統
25.6.3在多台計算機上分發任務
25.7管理僵屍網絡
25.8進一步探討

第四部分拓展知識
第26章設計隱蔽的網絡機器人和蜘蛛
26.1設計隱蔽網絡機器人的原因
26.1.1日誌文件
26.1.2日誌監控軟件
26.2模擬人類行為實現隱蔽
26.2.1善待資源
26.2.2在繁忙的時刻運行網絡機器人
26.2.3在每天不同時刻運行網絡機器人
26.2.4不要在假期和週末運行網絡機器人
26.2.5使用隨機的延遲時間
26.3結論

第27章代理
27.1代理的概念
27.2虛擬世界中的代理
27.3網絡機器人開發者使用代理的原因
27.3.1使用代理實現匿名
27.3.2使用代理改變位置
27.4使用代理服務器
27.4.1在瀏覽器中使用代理
27.4.2通過PHP/CURL使用代理
27.5代理服務器的類型
27.5.1公共代理
27.5.2Tor
27.5.3商業代理
27.6結論
27.6.1匿名是過程,不是特性
27.6.2創建自己的代理服務

第28章編寫容錯的網絡機器人
28.1網絡機器人容錯的類型
28.1.1適應URL變化
28.1.2適應頁面內容的變化
28.1.3適應表單的變化
28.1.4適應cookie管理的變化
28.1.5適應網絡中斷和網絡擁堵
28.2錯誤處理器
28.3進一步探討

第29章設計受網絡機器人青睞的網站
29.1針對搜索引擎蜘蛛優化網頁
29.1.1定義明確的鏈接
29.1.2穀歌轟炸和垃圾索引
29.1.3標題標簽
29.1.4元標簽
29.1.5標頭標簽
29.1.6圖片的alt屬性
29.2阻礙搜索引擎蜘蛛的網頁設計技巧
29.2.1JavaScript
29.2.2非ASCII內容
29.3設計純數據接口
29.3.1XML
29.3.2輕量級數據交換
29.3.3簡單對象訪問協議
29.3.4表徵狀態轉移
29.4結論

第30章消滅蜘蛛
30.1合理地請求
30.1.1創建服務協議條款
30.1.2使用robots.txt文件
30.1.3使用robots元標簽
30.2創造障礙
30.2.1選擇性地允許特定的網頁代理
30.2.2使用混淆
30.2.3使用cookie、加密、JavaScript和重定向
30.2.4認證用戶
30.2.5頻繁升級網站
30.2.6在其他媒體中嵌入文本
30.3設置陷阱
30.3.1創建蜘蛛陷阱
30.3.2處理不速之客的方法
30.4結論

第31章遠離麻煩
31.1尊重
31.2版權
31.2.1請善用資源
31.2.2不要紙上談兵
31.3侵犯動產
31.4互聯網法律
31.5結論

附錄APHP/CURL參考
附錄B狀態碼
附錄C短信網關

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 360
海外經銷商無庫存,到貨日平均30天至45天

暢銷榜

客服中心

收藏

會員專區