TOP
0
0
【簡體曬書區】 單本79折,5本7折,活動好評延長至5/31,趕緊把握這一波!
Spark大數據處理技術(簡體書)
滿額折

Spark大數據處理技術(簡體書)

人民幣定價:65 元
定價
:NT$ 390 元
優惠價
87339
領券後再享88折
海外經銷商無庫存,到貨日平均30天至45天
可得紅利積點:10 點
相關商品
商品簡介
作者簡介
名人/編輯推薦
目次
書摘/試閱

商品簡介

本書以Spark 0.9版本為基礎進行編寫,是一本全面介紹Spark及Spark生態圈相關技術的書籍,是國內首本深入介紹 Spark 原理和架構的技術書籍。主要內容有 Spark 基礎功能介紹及內部重要模塊分析,包括部署模式、調度框架、存儲管理以及應用監控;同時也詳細介紹了 Spark 生態圈中其他的軟件和模塊,包括 SQL 處理引擎 Shark 和 Spark SQL、流式處理引擎 Spark Streaming、圖計算框架 Graphx 以及分布式內存文件系統 Tachyon。本書從概念和原理上對 Spark 核心框架和生態圈做了詳細的解讀,并對 Spark 的應用現狀和未來發展做了一定的介紹,旨在為大數據從業人員和 Spark愛好者提供一個更深入學習的平臺。
本書適合任何大數據、Spark 領域的從業人員閱讀,同時也為架構師、軟件開發工程師和大數據愛好者展現了一個現代大數據框架的架構原理和實現細節。相信通過學習本書,讀者能夠熟悉和掌握 Spark 這一當前流行的大數據框架,并將其投入到生產實踐中去。

作者簡介

夏俊鸞 現任阿里巴巴數據平臺部高級技術專家,Apache Spark項目Committer,曾就職于英特爾亞太研發中心,微博賬號@Andrew-Xia。
劉旭暉 現任蘑菇街數據平臺資深架構師(花名天火),曾就職于英特爾亞太研發中心大數據軟件部,Spark/Hadoop/Hbase/Phoenix 等眾多大數據相關開源項目的積極貢獻者。樂于分享,著有CSDN博客 blog.csdn.net/colorant。
邵賽賽 英特爾亞太研發有限公司開發工程師,專注于大數據領域,開源愛好者,現從事Spark相關工作,Spark代碼貢獻者。
程浩 英特爾大數據技術團隊軟件工程師,Shark和Spark SQL活躍開發者,致力于SQL on Big Data的性能調優與優化。
史鳴飛 英特爾亞太研發有限公司大數據軟件部工程師,專注于大數據領域,主要從事Spark及相關項目的開發及應用,Spark及Shark代碼貢獻者,現在主要投身于Tachyon項目的開發。
黃潔 目前就職于英特爾亞太研發中心大數據技術中心,擔任高級軟件工程師,致力于大數據技術的性能優化及開發工作,涉及Hadoop、Spark、HBase等開源項目。在多年的工作過程中,積累了一定的分布式大數據框架性能調優經驗,并且是Apache Chukwa項目的PMC成員和Committer。在此之前,畢業于上海交通大學并獲碩士及學士學位。

名人/編輯推薦

全球首部全面介紹Spark及Spark生態圈相關技術的技術書籍
俯覽未來大局,不失精細剖析,呈現一個現代大數據框架的架構原理和實現細節
透徹講解Spark原理和架構,以及部署模式、調度框架、存儲管理及應用監控等重要模塊
Spark生態圈深度檢閱:SQL處理Shark和Spark SQL、流式處理Spark Streaming、圖計算Graphx及內存文件系統Tachyon

目次

第1章 Spark系統概述
1.1 大數據處理框架
1.2 Spark大數據處理框架
1.2.1 RDD表達能力
1.2.2 Spark子系統
1.3 小結
第2章 Spark RDD及編程接口
2.1 Spark程序“Hello World”
2.2 Spark RDD
2.2.1 RDD分區(partitions)
2.2.2 RDD優先位置(preferredLocations)
2.2.3 RDD依賴關系(dependencies)
2.2.4 RDD分區計算(compute)
2.2.5 RDD分區函數(partitioner)
2.3 創建操作
第1章 Spark系統概述
1.1 大數據處理框架
1.2 Spark大數據處理框架
1.2.1 RDD表達能力
1.2.2 Spark子系統
1.3 小結
第2章 Spark RDD及編程接口
2.1 Spark程序“Hello World”
2.2 Spark RDD
2.2.1 RDD分區(partitions)
2.2.2 RDD優先位置(preferredLocations)
2.2.3 RDD依賴關系(dependencies)
2.2.4 RDD分區計算(compute)
2.2.5 RDD分區函數(partitioner)
2.3 創建操作
2.3.1 集合創建操作
2.3.2 存儲創建操作
2.4 轉換操作
2.4.1 RDD基本轉換操作
2.4.2 鍵值RDD轉換操作
2.4.3 再論RDD依賴關系
2.5 控制操作(control operation)
2.6 行動操作(action operation)
2.6.1 集合標量行動操作
2.6.2 存儲行動操作
2.7 小結
第3章 Spark運行模式及原理
3.1 Spark運行模式概述
3.1.1 Spark運行模式列表
3.1.2 Spark基本工作流程
3.1.3 相關基本類
3.2 Local模式
3.2.1 部署及程序運行
3.2.2 內部實現原理
3.3 Standalone模式
3.3.1 部署及程序運行
3.3.2 內部實現原理
3.4 Local cluster模式
3.4.1 部署及程序運行
……
第4章 Spark調度管理原理
第5章 Spark的存儲管理
第6章 Spark監控管理
第7章 Spark架構與安裝配置
第8章 SQL程序擴展
第9章 Spark SQL
第10章 Spark Streaming流數據處理框架
第11章 GraphX計算框架
第12章 Tachyon存儲系統

書摘/試閱


2009年的時候,Netflix公司舉辦了一個叫作Netflix Prize的推薦算法比賽。這個比賽匿名公布了Netflix五十萬用戶對近兩萬部電影的一億個評分數據,希望參賽者能夠開發出更好的推薦算法,以提高推薦系統的質量。這個比賽的獎金有一百萬美元。一百萬美元看似很多,但是和一個更好的推薦算法給Netflix帶來的效益相比,實則九牛一毛。
高昂的獎金和Netflix提供的真實數據吸引了不少的參賽者,其中也包括了來自加州大學伯克利分校(UC Berkeley)的博士生Lester Mackey。Lester師從機器學習領域泰斗Michael Jordan,在一個叫作AMPLab的大數據實驗室里進行博士研究。AMPLab和大多數學術界實驗室不同的地方在于實驗室內有多個教授和他們帶領的學生一起合作。這些研究人員來自不同的領域,包括機器學習、數據庫、計算機網絡、分布式系統等。當時,要想提高算法研究迭代的效率,需要利用多臺機器的分布式建模。在嘗試了當時業界最流行的Hadoop MapReduce后,Lester發現自己的時間并不是花在提高算法效率上,而是耗費在MapReduce的編程模型和低效的執行模式上。這個時候,他向實驗室內部的另外一名進行分布式系統研究的學生Matei Zaharia求助。
當時年紀輕輕的Matei在業界已經小有名望。他在雅虎和Facebook實習期間做了很多Hadoop早期的奠基工作,包括現今Hadoop系統內應用最廣的fair scheduler調度算法。在和Lester的思維碰撞中,Matei總結了Hadoop MR的不足,開始設計了第一個版本的Spark。這個版本完全為了Lester定制,只有幾百行的代碼,使得Lester可以高效率地進行分布式機器學習建模。
Lester所在的The Ensemble團隊最后和BellKor's Pragmatic Chaos設計了在效率上并列第一的算法,可惜因為晚了20分鐘提交,與一百萬美元獎金失之交臂。5年之后,Lester和Matei都變成了學術界和業界杰出的人物。Lester成為了斯坦福大學計算機系的教授,帶領著自己的學生攻克一個又一個機器學習和統計的難題。Matei成為了麻省理工計算機系的教授,也是Databricks公司的CTO。
2009年之后的4年里面,AMPLab以Spark為基礎展開了很多不同的學術研究項目,其中包括了我參與和主導的Shark和GraphX,還有Spark Streaming、MLlib等。4年里隨著Hadoop的發展,Spark也逐漸從一個純學術研究項目發展到了開始有業界敢于吃螃蟹的用戶。
2013年,包括Matei和我在內的Spark核心人員共同創立了Databricks公司,立志于提高Spark的發展速度。過去兩年,Spark的發展超越了我們所有人的想象。一年半以前Spark還是一個連監控界面都不存在的系統,很難放進生產線部署。而一年半后的今天,它已經變成了整個大數據生態圈和Apache Software Foundation內最活躍的項目,活躍程度遠遠超出了曾經Spark只能望其項背的Hadoop。
在從Hadoop轉向Spark的道路上,我個人感覺國內的速度甚至超越了國外的社區。一年以前我第一次在中國的大數據會議上宣講Spark,當時臺下的大多數人對這個新的項目還有很大的質疑,認為其只會曇花一現。一年之后,Spark的每個新版本中都有不少華人貢獻的代碼,國內很多高科技和互聯網公司也都有了Spark的生產作業,不少用戶直接減少了在Hadoop MapReduce上的投資,把新的項目都轉移到了Spark上。
今天正好是Databricks公司成立一年半,也是Spark 1.2版本第一個release candidate發布的日期。Spark的高速發展導致了中文信息的脫節。這本書深入淺出地介紹了Spark和Spark上多個重要計算框架,希望它的問世可以更好地在大中華地區普及Spark,增進華人Spark社區的發展。
辛湜 Reynold Xin
2014年11月30號
Berkeley, CA

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 339
海外經銷商無庫存,到貨日平均30天至45天

暢銷榜

客服中心

收藏

會員專區