TOP
0
0
【簡體曬書節】 單本79折,5本7折,優惠只到5/31,點擊此處看更多!
大數據是這樣計算的:XLab實例入門(簡體書)
滿額折

大數據是這樣計算的:XLab實例入門(簡體書)

商品資訊

人民幣定價:79 元
定價
:NT$ 474 元
優惠價
87412
領券後再享89折起
海外經銷商無庫存,到貨日平均30天至45天
可得紅利積點:12 點
相關商品
商品簡介
作者簡介
目次
書摘/試閱

商品簡介

隨著大資料分析方法的發展,分析工具的改進,大資料分析的門檻降低了。基於大資料演算法平臺,資料分析師們已經不再被資料的“大”所困擾,可以輕鬆地探索大資料,挖掘大資料的價值。
本書側重介紹大資料分析方法和演算法的應用,適合對大資料分析感興趣的讀者閱讀。在內容的組織上,選取了10個不同領域的真實資料集,針對每個資料的特點,選擇適合的方法和演算法,和讀者一起體驗資料探索、資料分析、建模預測的過程;通過實例計算的結果,讀者會更加瞭解各種方法和演算法的長處和局限。本書的實例都運行在大資料演算法平臺XLab上。

作者簡介

楊旭,吉林長春人,2004年獲南開大學數學博士學位;隨後在南開大學資訊學院從事博士後研究工作;2006年加入微軟亞洲研究院,進行符號計算、大規模矩陣計算及機器學習演算法研究;2010年加入阿裡巴巴,從事大資料相關的統計和機器學習演算法研發。著有《重構大資料統計》。

推薦序一
阿裡雲副總裁
周靖人
阿裡巴巴的大資料演算法平臺作為支援天貓、淘寶和支付寶等各種業務的基石,每天有數千名的阿裡工程師在平臺上處理各式各樣的海量資料。作者多年來一直從事阿裡巴巴的大資料演算法平臺的研發,致力於幫助工程師更快捷、更高效地挖掘大資料,進行複雜多樣的資料分析。作者根據自己在阿裡大資料計算方面的所見所聞,結合多個具體的案例分析,將大資料分析計算的脈絡直觀、清晰地展現給讀者。
本書集中在大資料分析實戰上,精選了不同行業和領域的資料集,重點講解大資料的分析方法和演算法。本書的每一個章節都圍繞一個實際資料集,從資料探索入手,根據資料自身的特點選取相應的分析方法,並對相關演算法和方法進行簡要介紹,便於讀者理解掌握。同時,本書注重計算結果的分析,使讀者對演算法的效果有具體的印象,加強對演算法的理解。它是大資料領域一本難得的實用好書!
推薦序二
螞蟻金服副總裁、首席資料科學家
漆遠
本書立足于阿裡巴巴成熟的大資料演算法平臺,讀者在分析實例時,可以直接關注思路和演算法,省去了如何編寫複雜的分散式代碼實現一個常用演算法的困擾。本書的學習門檻低,讀者如果用過MATLAB、SAS、R或Excel等任何一款資料分析軟體,就可以輕鬆讀懂本書。
作者是阿裡巴巴一個核心MPI大資料演算法平臺的主要建設者和領頭人,其開發的演算法平臺在阿裡巴巴和螞蟻金服集團都廣泛使用,很好地支援了資料分析師和工程師的工作。作者結合自身的豐富經驗,通過具體案例全面地解析資料探索過程,講解思路、具體演算法的使用及技巧,實戰性強:面對具體的資料,引入適合的演算法,有簡明的演算法原理介紹;通過演算法應用到資料後的效果展示,讀者能感性地瞭解該演算法的作用。
本書可以説明對大資料分析感興趣的初學者瞭解該領域,提高自己在該領域的知識積累。本書所討論的十多個資料集,涉及不同的場景,用到了各種統計分析和機器學習的演算法,可以説明正在從事該領域的專業人士擴寬知識面,增強大資料實戰能力。
看完這本書,也許你會揭下大資料神秘的“面紗”,然後發現它很有意思、很有用!
前言
隨著大資料分析方法的發展、分析工具的改進,大資料分析的門檻降低了。基於大資料演算法平臺,資料分析師們已經不再被資料的“大”所困擾,他們可以輕鬆地探索大資料,挖掘大資料的價值。
本書希望將最新的、常用的大資料分析方法和演算法介紹給讀者。在內容的組織上,選取了10個不同領域的真實資料集,針對每個資料的特點,選擇適合的方法和演算法,和讀者一起體驗資料探索、資料分析、建模預測的過程;通過實例計算的結果,我們會更加瞭解各種方法和演算法的長處和局限。本書的實例都運行在大資料演算法平臺XLab上。
XLab是阿裡巴巴集團內部最大的大資料演算法平臺,集統計、機器學習、資料分析、挖據和處理於一體,致力於説明使用者享受最新的演算法研究成果,使其無須關注演算法的底層實現和性能調優,專注資料探索和演算法嘗試,從而快速地進行業務調整,搭建線上業務。在阿裡集團外,大家也有機會接觸到XLab,參加2014年阿裡巴巴大資料競賽的幾百支高校學生隊伍,正是使用XLab來進行大資料分析預測的;面對淘寶商家的資料開發平臺,“禦膳房”(http://clouddata.taobao.com/)便使用了XLab的分散式演算法庫XLib。
本書每章一個實例,每個實例各有特點,每章所用的方法也各有側重,我簡單歸納如下,希望能幫助讀者把握本書脈絡,選擇閱讀重點。
第1章
圍繞著人口普查資料,演示了一些常用的方法,譬如:對資料進行視覺化,計算常用統計量,進行多維對應分析,根據資料建立模型判斷年收入水準等,希望讀者能體會到:大資料分析還是很簡單、自然的。
第2章
概略介紹XLab的功能,希望大家能對大資料演算法平臺有個總體瞭解。
第3章
分析全球機場資訊資料,亮點是地理位置資訊(經度、緯度、海拔高度)視覺化。
第4章
圍繞紐約證券交易所的25家上市公司的股票價格,進行資料預處理、趨勢顯示和主成分分析。
第5章
分析標準普爾500指數,展示如何通過散佈圖矩陣,快速發現各資料列間的線性關係;如何將擴展長條圖與方差、變異係數等統計量相結合,探尋規律;本章還會將標準普爾500指數與前一章的主成分分析結果進行對比。
第6章
針對鳶尾花資料集,講解聚類分析中常用的兩種方法:K-Means聚類和EM聚類,通過在鳶尾花資料上的實驗效果,讀者能瞭解這兩種方法擅長處理的情況;在本章後半部分,實驗、對比了各種分類演算法在該資料集上的效果。
第7章
MovieLens資料集記錄了電影資訊和觀眾對電影的打分記錄。首先,計算得到各種排行榜,進一步對影片進行關聯分析,即如果知道某個觀眾看了影片A和B,我們可以推測該觀眾可能還看過哪部其他影片?
第8章
關於汽車評價資料集,重點關注:使用對應分析的方法,將各個屬性值間的關係圖示化;如何將資料所描述的規則,轉換為更為形象和易用的樹形決策過程。
第9章
關於Twitter資料,首先嘗試不同的統計方法,一起發現些有意思的現象;還可以針對Twitter的關注關係構成的網路,實驗資訊傳播的速度;最後,使用PageRank等方法,我們可以排出這個網路中最重要的人物。
第10章
展示如何生成大規模的亂數據,並演示了兩個神奇的例子。
第11章
為新浪網頁數據,本章的重點是處理自然語言資料,介紹常用的演算法:歸一化、分詞、TF-IDF值、選擇特徵等;主題模型是本章的重點,發掘眾多文檔後面的主題,找出相似的文檔;最後介紹奇妙的Word2Vec演算法。
第12章
針對2014年阿裡巴巴大資料競賽的賽題資料,展示了完整的大資料問題分析、資料預處理、特徵構造、資料集劃分、模型訓練、預測評估過程。
另外,如果讀者對XLab底層演算法的實現感興趣,建議參考我的另一本書《重構大資料統計》。面對海量資料,即使是基本的統計計算,考慮到計算時間和資源消耗,也不能簡單地將教科書上的演算法並行化,而是要在計算理論和計算方法上進行創新。
因作者水準有限,書中難免有不妥或疏漏之處,敬請廣大專家和讀者批評、指正!我的電子郵寄地址為:yangxu@alibaba-inc.com。
最後,感謝一起做XLab的各位阿裡同事!感謝家人的理解和支持!
楊旭
2016年3月

目次

第1章 入門 1
1.1 打開大資料之門 1
1.2 接觸大資料 2
1.3 資料初探索 4
1.4 進一步分析 10
1.5 訓練和預測 17
第2章 簡介 23
2.1 主介面介紹 23
2.1.1 工具列 24
2.1.2 資料清單 26
2.1.3 視窗管理器 28
2.1.4 工作介面 28
2.2 資料查看、運行 29
2.2.1 文本顯示 31
2.2.2 複製部分資料 31
2.2.3 顯示/隱藏列 32
2.3 腳本編輯、運行 33
2.4 如何獲得説明資訊 37
2.4.1 查看幫助手冊 37
2.4.2 介面上的説明資訊 38
2.4.3 腳本函數的説明資訊 40
2.5 執行SQL語句 44
第3章 全球機場資訊 46
3.1 資料視覺化 47
3.2 統計分析 58
3.3 大中型機場的分析 62
3.4 海拔高度排行 64
3.5 資料的關聯關係 68
第4章 股票價格 73
4.1 資料處理 74
4.2 資料探索 78
4.3 資料展開 81
4.3.1 組合使用基本函數進行變換 83
4.3.2 利用專門函數一步到位 84
4.4 各股趨勢比較 85
4.5 總體趨勢 87
第5章 標準普爾500指數 91
5.1 資料類型轉換 92
5.2 各指標間的線性關係 93
5.3 按時間變化趨勢 96
5.4 資料對比 100
第6章 鳶尾花資料集 107
6.1 屬性間的關係 108
6.2 聚類 110
6.2.1 K-Means聚類 111
6.2.2 EM聚類 120
6.3 二分類資料子集 124
6.3.1 使用訓練、預測表單 125
6.3.2 調用訓練、預測腳本 131
第7章 MovieLens資料集 136
7.1 資料變換 137
7.2 統計 138
7.3 排行榜 145
7.4 分類排行榜 147
7.5 影片關聯分析 149
7.6 屬性擴展 157
第8章 汽車評價資料集 161
8.1 資料圖示化 162
8.2 對比分析 165
8.3 決策樹 169
第9章 Twitter資料 174
9.1 使用者資訊分析 175
9.2 使用者粉絲數量的情況 184
9.3 粉絲的情況 192
9.4 “粉”與“被粉” 197
9.5 資訊傳播速度 204
9.6 哪些用戶更重要 208
9.6.1 粉絲最多的用戶 209
9.6.2 用戶排名 211
第10章 亂數據 215
10.1 資料生成 215
10.2 計算π值 217
10.3 中心極限定理 222
第11章 新浪網頁數據 230
11.1 分詞 232
11.2 有區分度的單詞 234
11.3 選擇特徵 235
11.3.1 卡方檢驗 236
11.3.2 資訊增益 238
11.4 主題模型 242
11.4.1 潛在語義分析 242
11.4.2 概率潛在語義分析 253
11.4.3 LDA模型 272
11.5 單詞映射為向量 289
第12章 2014年阿裡巴巴大資料競賽 294
12.1 試題介紹 294
12.2 資料 296
12.3 思路 298
12.3.1 用戶和品牌的各種特徵 298
12.3.2 二分類模型訓練 300
12.3.3 比賽考核目標 301
12.4 計算訓練資料集 302
12.4.1 原始資料劃分 303
12.4.2 計算特徵 304
12.4.3 資料預處理標識 304
12.4.4 使用者-品牌聯合特徵 308
12.4.5 使用者特徵 313
12.4.6 品牌特徵 317
12.4.7 整合訓練資料的特徵 322
12.4.8 計算標籤 323
12.5 二分類模型訓練 324
12.5.1 正負樣本配比 324
12.5.2 樸素貝葉斯演算法 325
12.5.3 邏輯回歸演算法 326
12.5.4 隨機森林演算法 327
12.6 提交預測結果 328

書摘/試閱

推薦序一
阿裡雲副總裁
周靖人
阿裡巴巴的大資料演算法平臺作為支援天貓、淘寶和支付寶等各種業務的基石,每天有數千名的阿裡工程師在平臺上處理各式各樣的海量資料。作者多年來一直從事阿裡巴巴的大資料演算法平臺的研發,致力於幫助工程師更快捷、更高效地挖掘大資料,進行複雜多樣的資料分析。作者根據自己在阿裡大資料計算方面的所見所聞,結合多個具體的案例分析,將大資料分析計算的脈絡直觀、清晰地展現給讀者。
本書集中在大資料分析實戰上,精選了不同行業和領域的資料集,重點講解大資料的分析方法和演算法。本書的每一個章節都圍繞一個實際資料集,從資料探索入手,根據資料自身的特點選取相應的分析方法,並對相關演算法和方法進行簡要介紹,便於讀者理解掌握。同時,本書注重計算結果的分析,使讀者對演算法的效果有具體的印象,加強對演算法的理解。它是大資料領域一本難得的實用好書!

推薦序二
螞蟻金服副總裁、首席資料科學家
漆遠
本書立足于阿裡巴巴成熟的大資料演算法平臺,讀者在分析實例時,可以直接關注思路和演算法,省去了如何編寫複雜的分散式代碼實現一個常用演算法的困擾。本書的學習門檻低,讀者如果用過MATLAB、SAS、R或Excel等任何一款資料分析軟體,就可以輕鬆讀懂本書。
作者是阿裡巴巴一個核心MPI大資料演算法平臺的主要建設者和領頭人,其開發的演算法平臺在阿裡巴巴和螞蟻金服集團都廣泛使用,很好地支援了資料分析師和工程師的工作。作者結合自身的豐富經驗,通過具體案例全面地解析資料探索過程,講解思路、具體演算法的使用及技巧,實戰性強:面對具體的資料,引入適合的演算法,有簡明的演算法原理介紹;通過演算法應用到資料後的效果展示,讀者能感性地瞭解該演算法的作用。
本書可以説明對大資料分析感興趣的初學者瞭解該領域,提高自己在該領域的知識積累。本書所討論的十多個資料集,涉及不同的場景,用到了各種統計分析和機器學習的演算法,可以説明正在從事該領域的專業人士擴寬知識面,增強大資料實戰能力。
看完這本書,也許你會揭下大資料神秘的“面紗”,然後發現它很有意思、很有用!

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 412
海外經銷商無庫存,到貨日平均30天至45天

暢銷榜

客服中心

收藏

會員專區