• 為確保您的帳戶安全,如接獲三民書局來電詢問滿意度或訂單出錯,要求重新設定。請立即掛掉電話,並致電三民確認或撥165諮詢,永遠不要操作ATM。
 
品牌專區-『天使文化』
品牌專區-『悅讀紀』
品牌專區-『巨石文華〈夢想季〉』
品牌專區-『蝴蝶季』
品牌專區-『魅力‧花火』
 
  • 工具圖書

  • 文學

  • 軍事

  • 歷史傳記

  • 地理旅遊

  • 語言學習

  • 法律

  • 社會科學

  • 政治外交

  • 美術藝術

  • 哲學宗教

  • 教育

  • 體育休閒

  • 電腦〈計算機〉

  • 醫療保健

  • 考題類

  • 數理科學和化學

  • 天文學、地球科學

  • 生物科學

  • 工業技術

  • 一般工業技術

  • 礦業工程

  • 石油、天然氣工業

  • 冶金工業

  • 金屬學、金屬工藝

  • 機械、儀錶工業

  • 武器工業

  • 動力工程

  • 原子能技術

  • 電工技術

  • 無線電電子學、電訊技術

  • 自動化技術、計算技術

  • 化學工業

  • 輕工業、手工業

  • 建築工程

  • 水利工程

  • 食譜、食品工業

  • 農業科學

  • 交通運輸/航空航太

  • 環境科學、安全科學

Spark大資料分析實戰(簡體書)
Spark大資料分析實戰(簡體書)
  • 人民幣定價:59元
  • 定  價:NT$354元
  • 優惠價:87308
  • 可得紅利積點: 9 點
  • 參考庫存: 無庫存,下單後立即進貨
    (採購期約45個工作天)
  • 加入購物車
分享:
   簡體分類: 工業技術 > 自動化技術、計算機技術 > 自動化技術及設備 > 數據處理、數據處理系統
   簡體書工業技術 > 自動化技術、計算技術

商品介紹
  • 商品簡介
  • 目次
  • 本書一共11章:其中第1~3章,主要介紹了Spark的基本概念、程式設計模型、開發與部署的方法;第4~11章,詳細詳解了熱點新聞分析系統、基於雲平臺的日誌資料分析、情感分析系統、搜尋引擎連結分析系統等的應用與演算法等核心知識點。
  • 目  錄Contents
    前 言
    第1章 Spark簡介 1
    1.1 初識Spark 1
    1.2 Spark生態系統BDAS 3
    1.3 Spark架構與運行邏輯 4
    1.4 彈性分散式資料集 6
    1.4.1 RDD簡介 6
    1.4.2 RDD運算元分類 8
    1.5 本章小結 17
    第2章 Spark開發與環境配置 18
    2.1 Spark應用開發環境配置 18
    2.1.1 使用Intellij開發Spark
    程式 18
    2.1.2 使用SparkShell進行互動式資料分析 23
    2.2 遠端調試Spark程式 24
    2.3 Spark編譯 26
    2.4 配置Spark源碼閱讀環境 29
    2.5 本章小結 29
    第3章 BDAS簡介 30
    3.1 SQL on Spark 30
    3.1.1 為什麼使用Spark SQL 31
    3.1.2 Spark SQL架構分析 32
    3.2 Spark Streaming 35
    3.2.1 Spark Streaming簡介 35
    3.2.2 Spark Streaming架構 38
    3.2.3 Spark Streaming原理剖析 38
    3.3 GraphX 45
    3.3.1 GraphX簡介 45
    3.3.2 GraphX的使用簡介 45
    3.3.3 GraphX體系結構 48
    3.4 MLlib 50
    3.4.1 MLlib簡介 50
    3.4.2 MLlib中的聚類和分類 52
    3.5 本章小結 57
    第4章 Lamda架構日誌分析流水線 58
    4.1 日誌分析概述 58
    4.2 日誌分析指標 61
    4.3 Lamda架構 62
    4.4 構建日誌分析資料流水線 64
    4.4.1 用Flume進行日誌採集 64
    4.4.2 用Kafka將日誌匯總 68
    4.4.3 用Spark Streaming進行即時日誌分析 70
    4.4.4 Spark SQL離線日誌分析 75
    4.4.5 用Flask將日誌KPI視覺化 78
    4.5 本章小結 81
    第5章 基於雲平臺和使用者日誌的推薦系統 82
    5.1 Azure雲平臺簡介 82
    5.1.1 Azure網站模型 83
    5.1.2 Azure資料存儲 84
    5.1.3 Azure Queue消息傳遞 84
    5.2 系統架構 85
    5.3 構建Node.js應用 86
    5.3.1 創建Azure Web應用 87
    5.3.2 構建本地Node.js網站 90
    5.3.3 發佈應用到雲平臺 90
    5.4 資料收集與預處理 91
    5.4.1 通過JS收集使用者行為日誌 92
    5.4.2 用戶即時行為回傳到Azure Queue 94
    5.5 Spark Streaming即時分析使用者日誌 96
    5.5.1 構建Azure Queue的Spark Streaming Receiver 96
    5.5.2 Spark Streaming即時處理Azure Queue日誌 97
    5.5.3 Spark Streaming資料存儲於Azure Table 98
    5.6 MLlib離線訓練模型 99
    5.6.1 載入訓練資料 99
    5.6.2 使用rating RDD訓練ALS模型 100
    5.6.3 使用ALS模型進行電影推薦 101
    5.6.4 評估模型的均方差 101
    5.7 本章小結 102
    第6章 Twitter情感分析 103
    6.1 系統架構 103
    6.2 Twitter資料收集 104
    6.2.1 設置 104
    6.2.2 Spark Streaming接收並輸出Tweet 109
    6.3 資料預處理與Cassandra存儲 111
    6.3.1 添加SBT依賴 111
    6.3.2 創建Cassandra Schema 112
    6.3.3 資料存儲於Cassandra 112
    6.4 Spark Streaming熱點Twitter分析 113
    6.5 Spark Streaming線上情感分析 115
    6.6 Spark SQL進行Twitter分析 118
    6.6.1 讀取Cassandra資料 118
    6.6.2 查看JSON資料模式 118
    6.6.3 Spark SQL分析Twitter 119
    6.7 Twitter視覺化 123
    6.8 本章小結 125
    第7章 熱點新聞分析系統 126
    7.1 新聞資料分析 126
    7.2 系統架構 126
    7.3 爬蟲抓取網路資訊 127
    7.3.1 Scrapy簡介 127
    7.3.2 創建基於Scrapy的新聞爬蟲 128
    7.3.3 爬蟲分散式化 133
    7.4 新聞文本資料預處理 134
    7.5 新聞聚類 135
    7.5.1 資料轉換為向量(向量空間模型VSM) 135
    7.5.2 新聞聚類 136
    7.5.3 詞向量同義詞查詢 138
    7.5.4 即時熱點新聞分析 138
    7.6 Spark Elastic Search構建全文檢索引擎 139
    7.6.1 部署Elastic Search 139
    7.6.2 用Elastic Search索引MongoDB資料 141
    7.6.3 通過Elastic Search檢索資料 143
    7.7 本章小結 145
    第8章 構建分散式的協同過濾推薦系統 146
    8.1 推薦系統簡介 146
    8.2 協同過濾介紹 147
    8.2.1 基於使用者的協同過濾演算法User-based CF 148
    8.2.2 基於專案的協同過濾演算法Item-based CF 149
    8.2.3 基於模型的協同過濾推薦Model-based CF 150
    8.3 基於Spark的矩陣運算實現協同過濾演算法 152
    8.3.1 Spark中的矩陣類型 152
    8.3.2 Spark中的矩陣運算 153
    8.3.3 實現User-based協同過濾的示例 153
    8.3.4 實現Item-based協同過濾的示例 154
    8.3.5 基於奇異值分解實現Model-based協同過濾的示例 155
    8.4 基於Spark的MLlib實現協同過濾演算法 155
    8.4.1 MLlib的推薦演算法工具 155
    8.4.2 MLlib協同過濾推薦示例 156
    8.5 案例:使用MLlib協同過濾實現電影推薦 157
    8.5.1 MovieLens資料集 157
    8.5.2 確定最佳的協同過濾模型參數 158
    8.5.3 利用最佳模型進行電影推薦 160
    8.6 本章小結 161
    第9章 基於Spark的社交網路分析 162
    9.1 社交網路介紹 162
    9.1.1 社交網路的類型 162
    9.1.2 社交網路的相關概念 163
    9.2 社交網路中社團挖掘演算法 164
    9.2.1 聚類分析和K均值演算法簡介 165
    9.2.2 社團挖掘的衡量指標 165
    9.2.3 基於譜聚類的社團挖掘演算法 166
    9.3 Spark中的K均值演算法 168
    9.3.1 Spark中與K均值有關的物件和方法 168
    9.3.2 Spark下K均值演算法示例 168
    9.4 案例:基於Spark的Facebook社團挖掘 169
    9.4.1 SNAP社交網路資料集介紹 169
    9.4.2 基於Spark的社團挖掘實現 170
    9.5 社交網路中的鏈路預測演算法 172
    9.5.1 分類學習簡介 172
    9.5.2 分類器的評價指標 173
    9.5.3 基於Logistic回歸的鏈路預測演算法 174
    9.6 Spark MLlib中的Logistic回歸 174
    9.6.1 分類器相關物件 174
    9.6.2 模型驗證物件 175
    9.6.3 基於Spark的Logistic回歸示例 175
    9.7 案例:基於Spark的鏈路預測演算法 177
    9.7.1 SNAP符號社交網路Epinions資料集 177
    9.7.2 基於Spark的鏈路預測演算法 177
    9.8 本章小結 179
    第10章 基於Spark的大規模新聞主題分析 180
    10.1 主題模型簡介 180
    10.2 主題模型LDA 181
    10.2.1 LDA模型介紹 181
    10.2.2 LDA的訓練演算法 183
    10.3 Spark中的LDA模型 185
    10.3.1 MLlib對LDA的支援 185
    10.3.2 Spark中LDA模型訓練示例 186
    10.4 案例:Newsgroups新聞的主題分析 189
    10.4.1 Newsgroups資料集介紹 190
    10.4.2 交叉驗證估計新聞的主題個數 190
    10.4.3 基於主題模型的文本聚類演算法 193
    10.4.4 基於主題模型的文本分類演算法 195
    10.5 本章小結 196
    第11章 構建分散式的搜尋引擎 197
    11.1 搜尋引擎簡介 197
    11.2 搜索排序概述 198
    11.3 查詢無關模型PageRank 199
    11.4 基於Spark的分散式PageRank實現 200
    11.4.1 PageRank的MapReduce實現 200
    11.4.2 Spark的分散式圖模型GraphX 203
    11.4.3 基於GraphX的PageRank實現 203
    11.5 案例:GoogleWeb Graph的PageRank計算 204
    11.6 查詢相關模型Ranking SVM 206
    11.7 Spark中支持向量機的實現 208
    11.7.1 Spark中的支援向量機模型 208
    11.7.2 使用Spark測試資料演示支援向量機的訓練 209
    11.8 案例:基於MSLR資料集的查詢排序 211
    11.8.1 Microsoft Learning to Rank資料集介紹 211
    11.8.2 基於Spark的Ranking SVM實現 212
    11.9 本章小結 213

首頁公司簡介異業合作人才招募圖書館採購/編目門市公告&三民禮券兌換處好站連結三民‧東大‧弘雅圖書目錄古籍‧古典圖書目錄