TOP
0
0
【簡體曬書節】 單本79折,5本7折,優惠只到5/31,點擊此處看更多!
搜索引擎:原理、技術與系統(第二版)(簡體書)
滿額折

搜索引擎:原理、技術與系統(第二版)(簡體書)

商品資訊

人民幣定價:79 元
定價
:NT$ 474 元
優惠價
87412
領券後再享88折起
海外經銷商無庫存,到貨日平均30天至45天
可得紅利積點:12 點
相關商品
商品簡介
名人/編輯推薦
目次
書摘/試閱

商品簡介

《搜索引擎:原理技術與系統(第2版)》系統介紹了互聯網搜索引擎的工作原理、實現技術及系統構建方案。全書分三篇共13章。上篇介紹搜索引擎的基本原理和技術,講述一個小型簡單搜索引擎實現的具體細節;中篇詳細討論了大規模分布式搜索引擎系統的設計要點及其關鍵技術;下篇結合“中國Web信息博物館”和“中國互聯網數字資源財富庫藏”的實踐經驗,介紹了構建大規模Web歷史網頁和非網頁倉儲系統的技術和方法,以及中文網頁的自動分類與聚類、開放域問題系統的構建等。

名人/編輯推薦

《搜索引擎:原理技術與系統(第2版)》層次分明,由淺入深,上篇和中篇涉及內容提供了源代碼下載地址;既有深入的理論分析,也有大量的實驗數據和程序,具有學習和實用雙重意義。《搜索引擎:原理技術與系統(第2版)》可作為高等院校計算機科學與技術、軟件工程、信息管理與信息系統、電子商務等專業的研究生或高年級本科生的教學參考書和技術資料;對廣大從事網絡技術、Web站點管理、數字圖書館、Web挖掘等研究和應用開發的科技人員有很高的參考價值;書中提供了大量源代碼,除了用于構建搜索引擎之外,對于學習編程,提高編程技巧,以及實現一個大規模應用開發也有一定的參考價值。

目次

第二版前言
第一版前言
第一章 引論
第一節 搜索引擎的概念
第二節 搜索引擎的發展歷史
第三節 一些著名的搜索引擎
第四節 小結
上篇web搜索引擎基本原理和技術
第二章 Web搜索引擎工作原理和體系結構
第一節 基本要求
第二節 網頁搜集
第三節 預處理
第四節 查詢服務
第五節 體系結構
第六節 小結
第三章 web信息的搜集
第一節 概述
一、超文本傳輸協議
二、一個小型搜索引擎系統
第二節 網頁搜集
一、定義URL類和Page類
二、與服務器建立連接
三、發送請求和接收數據
四、網頁信息存儲的天網格式
第三節 多道搜集程序并行工作
一、多線程并發工作
二、控制對一個站點并發搜集線程的數目
第四節 如何避免網頁的重復搜集
一、記錄未訪問、已訪問URL和網頁內容摘要信息
二、域名與IP的對應問題
第五節 搜集信息的類型
第六節 小結
第四章 對搜集信息的預處理
第一節 索引網頁庫
第二節 網頁編碼識別
一、基本而重要的概念
二、常用字符編碼
三、常用字符編碼算法
四、字符的輸入和顯示
五、編碼識別
第三節 中文自動分詞
第四節 分析網頁和建立倒排文件
第五節 小結
第五章 信息查詢服務
第一節 檢索的定義
第二節 查詢服務的實現
一、結果集合的形成
二、查詢結果顯示
第三節 小結
中篇對質量和性能的追求
第六章 可擴展搜集子系統
第一節 天網系統概述和集中式搜集系統結構
一、天網系統結構
二、集中式搜集系統
第二節 利用并行處理技術高效搜集網頁的一種方案
一、節 點間15RI。的劃分策略
二、關于性能的討論
三、性能測試和評價
四、系統的動態可配置性設計
第三節 天網分布式搜集系統
第四節 對DeepWeb的認識
一、DeepWeb的成因
二、搜索DeepWeb的方法
第五節 小結
第七章 網頁凈化與消重
第一節 網頁凈化與元數據提取
一、DocView模型
二、網頁的表示
三、提取DocView模型要素的方法
四、模型應用及實驗研究
第二節 網頁消重算法
一、消重算法
二、算法評測
第三節 小結
第八章 高性能檢索子系統
第一節 檢索系統基本技術
一、系統設計與結構
二、索引創建
三、檢索過程
第二節 適于查詢的網頁索引結構
一、倒排索引結構
二、平面位置索引
第三節 倒排索引壓縮
一、倒排索引壓縮技術
二、詞典與倒排表的壓縮
第四節 索引剪枝
一、靜態索引剪枝方法
二、動態索引剪枝方法
第五節 混合索引技術
一、混合索引的原理
二、混合索引的實現
第六節 倒排文件緩存機制
一、倒排文件緩存
二、負載特性
三、緩存策略的選擇
第七節 小結
第九章 相關排序與系統質量評估
第一節 傳統IR的相關排序技術
第二節 鏈接分析與相關排序
一、鏈接分析
二、Web查詢模式下的新信息
第三節 相關排序的一種實現方案
一、形成網頁中詞項的基本權重
二、利用鏈接的結構
三、收集用戶反饋信息
四、計算最終的權重
第四節 信息檢索技術評估
一、信息檢索技術評估指標
二、TREC和CWlRF信息檢索評估
三、搜索引擎技術評估
第五節 小結
下篇web信息資源的組織與應用服務
第十章 大規模web歷史網頁倉儲系統的構建
第一節 國外web歷史網頁保存現狀
一、InternetArchive
二、PANDORA
三、其他相關Web保存項目
第二節 中國web信息博物館的系統設計
一、WebInfoMall的設計目標
二、WebInfoMall的體系結構
第三節 歷史網頁的存儲
一、數據的組織
二、存儲結構
三、數據管理與壓縮
四、存儲性能
第四節 數據訪問
一、PageID的索引
二、URL的索引
三、數據服務
四、性能與優化
第五節 網頁的格式保存
第六節 小結
第十一章 大規模web非網頁信息倉儲系統的構建
第一節 網絡資源庫藏相關工作
一、Ibiblio
二、Internet Archive
二、Wikimedia
四、中國互聯網數字資源財富庫藏
第二節 CDAL系統概況
第三節 CDAL系統設計
一、系統體系結構
二、可擴展的存儲組織方案
第四節 網絡資源描述信息獲取
一、0ntology概述
二、描述信息獲取機制
三、改進查詢的方法
四、改進排序的方法
第五節 基于局部聚類思想的共現詞匯算法
一、基本定義
二、H)C共現詞匯算法
第六節 小結
第十二章 中文網頁自動分類與聚類
第一節 文檔自動分類算法的類型
第二節 實現中文網頁自動分類的一般過程
第三節 影響分類器性能的關鍵因素分析
一、實驗設置
二、訓練樣本
三、特征選取
四、分類算法
五、截尾算法
六、中文網頁分類器的設計方案
第四節 天網目錄導航服務
一、問題的提出
二、天網目錄導航服務的體系結構
三、天網目錄的運行實例
第五節 文本聚類方法
一、文本聚類的一般過程
二、文本間相似性的度量
三、常用聚類算法
四、聚類結果的評估
五、搜索引擎返回結果的聚類
第六節 小結
第十三章 開放域問答系統
第一節 概述
一、問答系統的歷史
二、著名開放域問答系統介紹
三、開放域問答系統的通用體系結構
第二節 問句的分析
一、問句中的指代消解
二、問句分類
三、問句主題提取
第三節 文檔和段落檢索
一、檢索模型的選用
二、查詢生成
三、查詢結果排序
四、增強索引的功能
第四節 答案提取和驗證模塊
一、生成候選答案集合
二、答案提取
第五節 問答系統的改進方法
一、問答系統中外部資源的利用
二、尋找特殊類問題的解決方案
三、通過系綜方法構建問答系統
第六節 問答系統的評測
一、TREC問答系統評測
二、問答系統評測指標
第七節 實例:天網開放域問答系統
第八節 小結
參考文獻
附錄 術語

書摘/試閱



第二節 網頁搜集
搜索引擎這樣一個軟件系統應該是何種工作方式?如果說軟件系統是工作在某個數據集合上的程序的話,這個軟件系統操作的數據不僅包括內容不可預測的用戶查詢,還要包括在數量上動態變化的海量網頁,并且這些網頁不會主動送到系統來,而是需要由系統去抓取。
首先,我們考慮抓取的時機:事先還是即時。我們都有經驗,在網絡比較暢通的情況下,從網上下載一篇網頁大約需要1秒鐘左右,因此如果在用戶查詢的時候即時去網上抓來成千上萬的網頁,一個個分析處理,和用戶的查詢匹配,不可能滿足搜索引擎的響應時間要求。不僅如此,這樣做的系統效益也不高(會重復抓取太多的網頁);面對大量的用戶查詢,不可能想象每來一個查詢,系統就到網上“搜索”一次。
因此我們看到,大規模搜索引擎服務的基礎應該是一批預先搜集好的網頁(直接或者間接)。這一批網頁如何維護?可以有兩種基本的考慮。
定期搜集,每次搜集替換上一次的內容,我們稱之為“批量搜集”。由于每次都是重新來一次,對于大規模搜索引擎來說,每次搜集的時間通常會花幾周。而由于這樣做開銷較大,通常兩次搜集的間隔時間也不會很短(如早期天網的版本大約每3個月來一次,Google在一段時間曾是每隔28天來一次)。這樣做的好處是系統實現比較簡單,主要缺點是“時新性”(freshness)不高,還有重復搜集所帶來的額外帶寬的消耗。
增量搜集,開始時搜集一批,往后只是:①搜集新出現的網頁;②搜集那些在上次搜集后有過改變的網頁;③發現自從上次搜集后已經不再存在了的網頁,并從庫中刪除。由于除新聞網站外,許多網頁的內容變化并不是很經常的(有研究指出50%網頁的平均生命周期大約為50天(Choetal.2000,Cho2002》,這樣做每次搜集的網頁量不會很大(例如,我們在2003年初估計中國每天有30萬~50萬變化了的網頁),于是可以經常啟動搜集過程(如每天)。30萬網頁,一臺PC機,在一般的網絡條件下,半天也就搜集完了。這樣的系統表現出來的信息時新性就會比較高,主要缺點是系統實現比較復雜;這種復雜還不僅在于搜集過程,而是還在于下面要談到的建索引的過程。
上面講的是系統網頁數據庫維護的基本策略。在這兩種極端的情況之間也可能有一些折中的方案,J.Cho博士在這方面做過深入的研究(Choetal.2000,Cho2002),他根據一種網頁變化模型和系統所含內容時新性的定義,提出了相應優化的網頁搜集策略。其中一個有趣的結論是:在系統搜集能力一定的情況下,若有兩類網頁(如“商業”和“教育”),它們的更新周期差別很大(如“商業”類網頁平均更新周期是“天”,而“教育”類網頁平均更新周期是“月”),則系統應該將注意力放在更新慢的網頁上(Choetal.2000),以使系統整體的時新性達到比較高的取值。
在具體搜集過程中,如何抓取一篇篇的網頁,也可以有不同的考慮。最常見的一種是所謂“爬取”:將Web上的網頁集合看成是一個有向圖,搜集過程從給定起始URL集合S(或者說“種子”)開始,沿著網頁中的鏈接,按照先深、先寬或者某種別的策略遍歷,不停地從S中移除URL,下載相應的網頁,解析出網頁中的超鏈接URL,看是否已經被訪問過,將未訪問過的那些URL加入集合S。整個過程可以形象地想象為一個蜘蛛(spider)在蜘蛛網(Web)上爬行(crawl)。后面我們會看到,真正的系統其實是多個“蜘蛛”同時在爬。

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 412
海外經銷商無庫存,到貨日平均30天至45天