評論

滿額折

Spark高級數據分析第2版（簡體書）

ISBN13：9787115482525
出版社：人民郵電出版社
作者：(美)桑迪‧里紮; (美)于里‧萊瑟森; (英)肖恩‧歐文; (美)喬希‧威爾斯
譯者：龔少成;邱鑫
裝訂／頁數：平裝／226頁
規格：23cm*17cm (高/寬)
出版日：2021/01/01
關鍵字： Spark高級數據分析第2版（簡體書）、 Spark、高級、級數、數據、分析、簡體、人民郵電出版社、 (美)桑迪‧里紮、 (美)于里‧萊瑟森、 (英)肖恩‧歐、 (美)喬希‧威爾斯、簡體書、工業技術、自動化技術、計算技術、數據處理、數據處理系統、

中國圖書館分類：數據處理、數據處理系統

人民幣定價：69 元

定價：NT$ 414 元

優惠價：87 折 360 元

領券後再享88折

領

海外經銷商無庫存，到貨日平均30天至45天

可得紅利積點：10 點

相關商品

商品簡介

作者簡介

商品簡介

本書是使用Spark進行大規模數據分析的實戰寶典，由知名數據科學家撰寫。本書在第1版的基礎上，針對Spark近年來的發展，對樣例代碼和所使用的資料進行了大量更新。新版Spark使用了全新的核心API，MLlib和Spark SQL兩個子項目也發生了較大變化，本書為關注Spark發展趨勢的讀者提供了與時俱進的資料，例如Dataset和DataFrame的使用，以及與DataFrame API高度集成的Spark ML API。

作者簡介

【作者簡介】
桑迪·裡紮（Sandy Ryza），Spark項目代碼提交者、Hadoop項目管理委員會委員，Time Series for Spark項目創始人。曾任Cloudera公司高級數據科學家，現就職於Remix公司從事公共交通算法開發。
於裡·萊瑟森（Uri Laserson），MIT博士畢業，致力於用技術解決遺傳學問題，曾利用Hadoop生態系統開發了可擴展的基因組學和免疫學技術。目前是西奈山伊坎醫學院遺傳學助理教授，曾任Cloudera公司核心數據科學家。

肖恩·歐文（Sean Owen），Spark、Mahout項目代碼提交者，Spark項目管理委員會委員。現任Cloudera公司數據科學總監。

喬希·威爾斯（Josh Wills），Crunch項目發起人，現任Slack公司數據工程主管。曾任Cloudera公司高級數據科學總監。

【譯者簡介】

龔少成
現任萬達科技集團數據工程部總經理，清華大學自動化系研究生畢業，國內專注企業級大數據平臺建設的先驅者之一，曾經在Intel和Cloudera公司擔任大數據技術負責人，Cloudera公司認證大數據培訓講師。

邱鑫
畢業于武漢大學，目前就職於英特爾亞太研發有限公司，是Intel大數據團隊高級工程師。主要研究大數據與深度學習技術，是基於Spark的深度學習框架BigDL的核心貢獻者。

推薦序 ix
譯者序　xi
序　xiii
前言　xv
第　1章大數據分析　1
1.1　數據科學面臨的挑戰　2
1.2　認識Apache Spark　4
1.3　關於本書　5
1.4　第 2版說明　6
第　2章用Scala 和Spark 進行數據分析　8
2.1　數據科學家的Scala　9
2.2　Spark編程模型　10
2.3　記錄關聯問題　10
2.4　小試牛刀：Spark shell和SparkContext　11
2.5　把數據從集群上獲取到客戶端　16
2.6　把代碼從客戶端發送到集群　19
2.7　從RDD到DataFrame　20
2.8　用DataFrame API來分析數據　23
2.9　DataFrame的統計信息　27
2.10　DataFrame的轉置和重塑　29
2.11　DataFrame的連接和特徵選擇　32
2.12　為生產環境準備模型　33
2.13　評估模型　35
2.14　小結　36
第3章　音樂推薦和Audioscrobbler數據集　37
3.1　數據集　38
3.2　交替最小二乘推薦算法　39
3.3　準備數據　41
3.4　構建第一個模型　44
3.5　逐個檢查推薦結果　47
3.6　評價推薦質量　50
3.7　計算AUC　51
3.8　選擇超參數　53
3.9　產生推薦　55
3.10　小結　56
第4章　用決策樹算法預測森林植被　58
4.1　回歸簡介　59
4.2　向量和特徵　59
4.3　樣本訓練　60
4.4　決策樹和決策森林　61
4.5　Covtype數據集　63
4.6　準備數據　64
4.7　第一棵決策樹　66
4.8　決策樹的超參數　72
4.9　決策樹調優　73
4.10　重談類別型特徵　77
4.11　隨機決策森林　79
4.12　進行預測　81
4.13　小結　82
第5章　基於K均值聚類的網絡流量異常檢測　84
5.1　異常檢測　85
5.2　K均值聚類　85
5.3　網絡入侵　86
5.4　KDD Cup 1999數據集　86
5.5　初步嘗試聚類　87
5.6　k的選擇　90
5.7　基於SparkR 的可視化　92
5.8　特徵的規範化　96
5.9　類別型變量　98
5.10　利用標號的熵信息　99
5.11　聚類實戰　100
5.12　小結　102
第6章　基於潛在語義分析算法分析維基百科　104
6.1　文檔－詞項矩陣　105
6.2　獲取數據　106
6.3　分析和準備數據　107
6.4　詞形歸併　109
6.5　計算TF-IDF　110
6.6　奇異值分解　111
6.7　找出重要的概念　113
6.8　基於低維近似的查詢和評分　117
6.9　詞項－詞項相關度　117
6.10　文檔－文檔相關度　119
6.11　文檔－詞項相關度　121
6.12　多詞項查詢　122
6.13　小結　123
第7章　用GraphX分析伴生網絡　124
7.1　對MEDLINE文獻引用索引的網絡分析　125
7.2　獲取數據　126
7.3　用Scala XML工具解析XML文檔　128
7.4　分析MeSH主要主題及其伴生關係　130
7.5　用GraphX來建立一個伴生網絡　132
7.6　理解網絡結構　135
7.6.1　連通組件　136
7.6.2　度的分佈　138
7.7　過濾噪聲邊　140
7.7.1　處理EdgeTriplet　141
7.7.2　分析去掉噪聲邊的子圖　142
7.8　小世界網絡　144
7.8.1　系和聚類係數　144
7.8.2　用Pregel計算平均路徑長度　145
7.9　小結　150
第8章　紐約出租車軌跡的空間和時間數據分析　151
8.1　數據的獲取　152
8.2　基於Spark的第三方庫分析　153
8.3　基於Esri Geometry API和Spray的地理空間數據處理　153
8.3.1　認識Esri Geometry API　154
8.3.2　GeoJSON簡介　155
8.4　紐約市出租車客運數據的預處理　157
8.4.1　大規模數據中的非法記錄處理　159
8.4.2　地理空間分析　162
8.5　基於Spark的會話分析　165
8.6　小結　168
第9章　基於蒙特卡羅模擬的金融風險評估　170
9.1　術語　171
9.2　VaR計算方法　172
9.2.1　方差－協方差法　172
9.2.2　歷史模擬法　172
9.2.3　蒙特卡羅模擬法　172
9.3　我們的模型　173
9.4　獲取數據　173
9.5　數據預處理　174
9.6　確定市場因素的權重　177
9.7　採樣　179
9.8　運行試驗　182
9.9　回報分佈的可視化　185
9.10　結果的評估　186
9.11　小結　188
第　10章基因數據分析和BDG項目　190
10.1　分離存儲與模型　191
10.2　用ADAM CLI導入基因學數據　193
10.3　從ENCODE數據預測轉錄因子結合位點　201
10.4　查詢1000 Genomes項目中的基因型　207
10.5　小結　210
第　11章基於PySpark和Thunder的神經圖像數據分析　211
11.1　PySpark簡介　212
11.2　Thunder工具包概況和安裝　215
11.3　用Thunder加載數據　215
11.4　用Thunder對神經元進行分類　221
11.5　小結　225
作者介紹　226
封面介紹　226

主題書展

優惠方式：53折起

主題書展

更多書展

本週66折

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大，除封面破損、內頁脫落等較嚴重的狀態，其餘商品將正常出貨。

特別提醒：部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供，需以QR CODE 連結至當地網站註冊“並通過驗證程序”，方可下載使用。

無現貨庫存之簡體書，將向海外調貨：
海外有庫存之書籍，等候約45個工作天;
海外無庫存之書籍，平均作業時間約60個工作天，然不保證確定可調到貨，尚請見諒。

為了保護您的權益，「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨，請在商品鑑賞期內寄回，且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

Spark高級數據分析第2版（簡體書）

商品簡介

作者簡介

目次

主題書展

主題書展

本週66折

您曾經瀏覽過的商品

購物須知

網路書店

復北店

重南店

Spark高級數據分析 第2版（簡體書）

商品簡介

作者簡介

目次

主題書展

主題書展

本週66折

您曾經瀏覽過的商品

購物須知

Spark高級數據分析第2版（簡體書）