TOP
0
0
【23號簡體館日】限時三天領券享優惠!!
Mahout算法解析與案例實戰(簡體書)
滿額折

Mahout算法解析與案例實戰(簡體書)

人民幣定價:59 元
定  價:NT$ 354 元
優惠價:87308
領券後再享88折
海外經銷商無庫存,到貨日平均30天至45天
可得紅利積點:9 點
相關商品
商品簡介
作者簡介
目次
書摘/試閱

商品簡介

本書是一本經典的Mahout著作,原理與實戰并重。不僅全面分析了Mahout算法庫中不同模塊中的各個算法的原理及其Mahout實現流程,而且每個算法都輔之以實戰案例。此外,還包括4個系統級案例,實戰性非常強。
全書共11章分為三個部分:第一部分為基礎篇(第1~2章),首先介紹了Mahout的應用背景、Mahout算法庫收錄的算法、Mahout的應用實例,以及開發環境的搭建;第二部分為算法篇(第3~7章),分析了Mahout算法庫中不同模塊的各個算法的原理以及Mahout實現流程,同時在每章書末含有每個算法的實戰,讓讀者可以自己運行程序,感受程序運行的各個流程;第三部分為實戰篇(第8~11章),通過對4個不同系統案例的分析講解,讓讀者了解一個完整的云平臺系統的各個流程,從需求到系統框架到系統功能再到功能開發。

作者簡介

樊哲,資深軟件開發工程師,精通Java相關技術,專注數據挖掘領域,對Hadoop和Mahout等大數據技術有較深入的研究和豐富的實踐,目前正從事Mahout算法開發方面的工作。活躍于CSDN和Hadoop技術論壇等社區,榮獲“CSDN2013博客之星”頭銜。

目次

前 言
第一部分 基礎篇
第1章 Mahout簡介 2
1.1 Mahout應用背景 2
1.2 Mahout算法庫 3
1.2.1 聚類算法 4
1.2.2 分類算法 5
1.2.3 協同過濾算法 6
1.2.4 頻繁項集挖掘算法 7
1.3 Mahout應用 7
1.4 本章小結 8
第2章 Mahout安裝配置 9
2.1 Mahout安裝前的準備 9
2.1.1 安裝JDK 10
2.1.2 安裝Hadoop 12
2.2 兩種安裝方式 20
2.2.1 使用Maven安裝 20
2.2.2 下載發布版安裝 22
2.3 測試安裝 22
2.4 本章小結 24
第二部分 算法篇
第3章 聚類算法 26
3.1 Canopy算法 26
3.1.1 Canopy算法簡介 26
3.1.2 Mahout中Canopy算法實現原理 28
3.1.3 Mahout的Canopy算法實戰 29
3.1.4 Canopy算法小結 37
3.2 K-Means算法 37
3.2.1 K-Means算法簡介 37
3.2.2 Mahout中K-Means算法實現原理 38
3.2.3 Mahout的K-Means算法實戰 39
3.2.4 K-Means算法小結 46
3.3 Mean Shift算法 46
3.3.1 Mean Shift算法簡介 46
3.3.2 Mahout中Mean Shift算法實現原理 46
3.3.3 Mahout的Mean Shift算法實戰 48
3.3.4 Mean Shift算法小結 51
3.4 本章小結 51
第4章 分類算法 52
4.1 Bayesian算法 53
4.1.1 Bayesian算法簡介 53
4.1.2 Mahout 中Bayesian算法實現原理 55
4.1.3 Mahout的Bayesian算法實戰 59
4.1.4 拓展 70
4.1.5 Bayesian算法小結 70
4.2 Random Forests算法 70
4.2.1 Random Forests算法簡介 70
4.2.2 Mahout中Random Forests算法實現原理 72
4.2.3 Mahout的Random Forests算法實戰 77
4.2.4 拓展 81
4.2.5 Random Forests算法小結 82
4.3 本章小結 83
第5章 協同過濾算法 84
5.1 Distributed Item-Based Collaborative Filtering算法 85
5.1.1 Distributed Item-Based Collaborative Filtering算法簡介 85
5.1.2 Mahout中Distributed ItemBased Collaborative Filtering算法實現原理 86
5.1.3 Mahout的Distributed Item Based Collaborative Filtering算法實戰 90
5.1.4 拓展 93
5.1.5 Distributed ItemBased Collabo-rative Filtering算法小結 94
5.2 Collaborative Filtering with ALSWR算法 94
5.2.1 Collaborative Filtering with ALSWR算法簡介 94
5.2.2 Mahout中Collaborative Filtering with ALS-WR算法實現原理 98
5.2.3 Mahout的Collaborative Filtering with ALS-WR算法實戰 99
5.2.4 拓展 107
5.2.5 Collaborative Filtering with ALSWR算法小結 107
5.3 本章小結 107
第6章 模式挖掘算法 108
6.1 FP樹關聯規則算法 109
6.1.1 FP樹關聯規則算法簡介 109
6.1.2 Mahout中Parallel Frequent Pattern Mining算法實現原理 113
6.1.3 Mahout的Parallel Frequent Pattern Mining算法實戰 120
6.1.4 拓展 125
6.2 本章小結 126
第7章 Mahout中的其他算法 127
7.1 Dimension Reduction算法 128
7.1.1 Dimension Reduction算法簡介 128
7.1.2 Mahout中Dimension Reduction算法實現原理 129
7.1.3 Mahout的Dimension Reduction算法實戰 133
7.1.4 拓展 139
7.2 本章小結 142
第三部分 實戰篇
第8章 Friend Find系統 144
8.1 系統功能 145
8.1.1 系統管理員 145
8.1.2 普通用戶 146
8.1.3 總體功能 146
8.2 數據庫設計 147
8.2.1 原始用戶數據表 148
8.2.2 注冊用戶數據表 149
8.2.3 系統管理員表 149
8.2.4 聚類中心表 149
8.3 系統技術框架 150
8.4 系統流程 152
8.4.1 登錄 152
8.4.2 注冊 153
8.4.3 上傳數據 154
8.4.4 調用K-Means算法 155
8.4.5 查看用戶分組 157
8.4.6 查看分組情況 158
8.4.7 查看分組成員 159
8.5 系統實現 159
8.5.1 登錄 159
8.5.2 注冊 161
8.5.3 上傳數據 162
8.5.4 調用K-Means算法 163
8.5.5 查看用戶分組 167
8.5.6 查看分組情況 167
8.5.7 查看分組成員 168
8.6 本章小結 170
第9章 Wine Identification系統 171
9.1 系統功能 172
9.1.1 用戶管理模塊 173
9.1.2 隨機森林模型建立模塊 173
9.1.3 隨機森林模型預測模塊 173
9.2 系統框架 173
9.3 數據庫設計 180
9.3.1 用戶表 180
9.3.2 系統常量表 181
9.4 系統流程 181
9.4.1 登錄 182
9.4.2 注銷 182
9.4.3 權限修改 182
9.4.4 密碼修改 183
9.4.5 用戶列表 183
9.4.6 數據上傳 184
9.4.7 隨機森林模型建立 185
9.4.8 隨機森林模型評估 186
9.4.9 隨機森林模型預測 187
9.5 系統實現 188
9.5.1 登錄 188
9.5.2 注銷 188
9.5.3 權限修改 189
9.5.4 密碼修改 190
9.5.5 用戶列表 191
9.5.6 數據上傳 193
9.5.7 隨機森林模型建立 194
9.5.8 隨機森林模型評估 194
9.5.9 隨機森林模型預測 195
9.6 本章小結 196
第10章 Dating Recommender系統 197
10.1 系統功能 198
10.1.1 系統管理員功能 198
10.1.2 普通用戶功能 199
10.1.3 功能總述 199
10.2 系統框架 200
10.3 數據庫設計 203
10.3.1 系統管理員表 203
10.3.2 原始用戶推薦信息表 204
10.3.3 基礎數據top10表 204
10.4 系統流程 204
10.4.1 登錄 205
10.4.2 上傳數據 205
10.4.3 推薦分析 206
10.4.4 單用戶推薦 210
10.4.5 新用戶推薦 211
10.5 算法設計 214
10.5.1 協同過濾算法接口設計 214
10.5.2 top10算法設計 215
10.5.3 新用戶推薦算法設計 221
10.6 系統實現 228
10.6.1 登錄 228
10.6.2 上傳數據 229
10.6.3 推薦分析 230
10.6.4 單用戶推薦 232
10.6.5 新用戶推薦 234
10.7 本章小結 235
第11章 博客推薦系統 237
11.1 系統功能 238
11.1.1 用戶管理 238
11.1.2 建立知識庫 239
11.1.3 博客管理 239
11.2 系統框架 240
11.3 數據庫設計 246
11.3.1 用戶信息表 246
11.3.2 知識庫信息表 247
11.3.3 系統常量表 248
11.4 系統流程 248
11.4.1 登錄 248
11.4.2 注冊 248
11.4.3 密碼修改 249
11.4.4 訂閱博客查看 249
11.4.5 博客訂閱與退訂 249
11.4.6 博客推薦 250
11.4.7 上傳數據 252
11.4.8 調用FP樹關聯規則算法 253
11.5 算法設計 260
11.6 系統實現 262
11.6.1 登錄 262
11.6.2 注冊 263
11.6.3 密碼修改 264
11.6.4 訂閱博客查看 265
11.6.5 運行FP云算法 266
11.6.6 博客訂閱與退訂 267
11.6.7 博客推薦 268
11.7 本章小結 270

書摘/試閱

第一部分
基 礎 篇
第1章 Mahout簡介
第2章 Mahout安裝配置


 


第1章
Mahout簡介
當今社會什么技術最牛?什么技術最火?也許很多人會說是云計算,它可以說是近幾年來一直被熱議的“高深莫測”的詞匯。大家都在說云計算,但是很少人能把云計算說得徹底且明白,大多數人還是有“云里霧里”的感覺。雖然如此,但是隨著最近幾年云計算概念的普及,云計算神秘的面紗正在慢慢地被揭開。云計算的核心重點是云平臺下算法的開發,有了算法的支撐才能發揮云計算的最大優勢。Mahout開源項目就是一個Hadoop云平臺的算法庫,已經實現了多種經典算法,并一直在擴充中,其目標就是致力于創建一個可擴容的云平臺算法庫。
下面就讓我們開始Mahout探索之旅吧。
1.1 Mahout應用背景
隨著互聯網的發展,企業擁有的數據也越來越多,比如Facebook公司,從公司成立之初的100萬用戶數到2010年的1.34億用戶數,再到2014年的13.1億用戶數,其用戶增長速度達到了令人驚嘆的地步,單單用戶數目的增長已經達到了如此地步,更不用說每個用戶所產生的數據量了。很明顯,面對如此龐大的數據量,企業再用以前的數據處理方式顯然已經不能滿足要求了。
正所謂,變則通,通則久。企業若想長久發展,面對日益增長的數據,在以前傳統的數據處理方式顯得力不從心的時候,就需要“變”。所謂“變”,其實就是對現有方式的創新。在此情況下,“云計算”便應運而生。所謂“云計算”是一種基于互聯網的計算方式,通過這種方式,共享的軟硬件資源和信息可以按需提供給計算機和其他設備,這樣可以最大限度、最大效率地利用計算機資源,達到快捷、高速地處理數據的目的。
但是,單單有云計算平臺還不夠,還需要有適合云平臺的算法。云計算的核心就是計算,要研究可以在云平臺上實現的算法,這樣才能發揮云計算的最大威力。以前的數據挖掘算法是在單機上實現的,單機實現的算法其編程思路和模式與云平臺下的編程思路和模式很不一樣,如果還是按照以前的思路,那么肯定是行不通的。
目前開源的云平臺有多種,本書所述的云平臺是Hadoop云平臺。Hadoop云平臺是一個用于處理大數據的分布式應用的開源框架,提供分布式存儲和高效計算能力。Hadoop具有以下優勢:
同時提供分布式存儲和計算能力。
具有極高的可擴展性。
其主要的組件之一HDFS具有很高的數據吞吐量。
具有軟件和硬件容錯性。
允許大數據的并行工作。
在Hadoop云平臺下編程不僅要求用戶對Hadoop云平臺框架比較熟悉,還要對Hadoop云平臺下底層數據流、Map和Reduce原理非常熟悉,這是基本的編程要求。此外,用戶要編寫某一個算法還需要對該算法的原理比較熟悉,即需要對算法原理理解透徹。總體來看,編寫云平臺下的算法程序是屬于高難度的開發工作了。但是,如果使用Mahout,情況就會有很大的不同,用戶再也不用自己編寫復雜的算法,不需要掌握太高深的云平臺的框架和數據流程的理論知識。用戶所需要了解的只是算法的大概原理、算法實際應用環境和如何調用Mahout相關算法的程序接口。當然,在具體的項目中,用戶還應該根據實際需求在Mahout源代碼基礎上進行二次開發以滿足具體的實際應用情況。
Mahout是Apache基金會的開源項目之一。Apache Mahout起源于2008年,當時它是Apache Lucene的子項目。在使用Hadoop云平臺的基礎上,可以將其功能有效地擴展到Hadoop云平臺中,提高其運算效率。2010年4月,Apache Mahout最終成為了Apache的頂級項目。創建此項目的用意是建立一個可擴容的云平臺算法庫。目前,Mahout已經實現了多種經典數據挖掘算法,算是比較完備的算法庫了。Mahout目前還在擴充中,由世界上對這個項目感興趣的云平臺算法編程高手們一起進行開發、測試,然后進行算法擴充,任何對這個項目感興趣的個人或者組織都可以加入到該項目的社區中,為該項目做出貢獻。

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 308
海外經銷商無庫存,到貨日平均30天至45天

暢銷榜

客服中心

收藏

會員專區