TOP
0
0
【23號簡體館日】限時三天領券享優惠!!
Hadoop專家:管理、調優與Spark YARN HDFS安全(簡體書)
滿額折

Hadoop專家:管理、調優與Spark YARN HDFS安全(簡體書)

人民幣定價:168 元
定  價:NT$ 1008 元
優惠價:87877
領券後再享88折
海外經銷商無庫存,到貨日平均30天至45天
可得紅利積點:26 點
相關商品
商品簡介
作者簡介
目次

商品簡介

本書翻譯自Sam R. Alapati 的Expert Hadoop Administration。Sam R. Alapati 是Sabre 公司的首席Hadoop 管理員,具有多年的Hadoop 運維管理經驗。他希望通過本書,為Hadoop 集群開發與管理人員提供一些有益指導。從事Hadoop 的管理工作,首先要瞭解Hadoop 的架構,只進行單純的操作並不能被稱為合格的管理員。基於此,本書在介紹Hadoop 及其生態組件時,都會首先介紹其架構,以期讀者能夠在更高的層次認識管理工作。本書首先介紹了Hadoop 的整體架構及其部署與使用;然後著重介紹了兩個重要的計算引擎MapReduce 與Spark ;接著介紹了Hadoop 的數據存儲與安全、數據均衡等特性;最後則介紹了如何進行參數調優與故障排除。整個流程下來,讀者能夠建立起完整的關於Hadoop 管理的體系架構。

作者簡介

Sam R. Alapati,從事Hadoop相關工作6年。目前在Sabre任Principal Hadoop Administrator,負責大規模Hadoop集群的日常管理工作,主要對多個關鍵數據科學、數據分析Hadoop作業工作流進行管理。Sam R. Alapati還是一位Oracle DBA專家,在過去14年間出版了18部廣受好評的Oracle技術著作。貝殼大數據架構團隊,負責公司大數據存儲平臺、計算平臺、實時數據流平臺的架構、性能調優、研發等,提供高效的大數據olap引擎,以及大數據工具鏈組件研發,為公司提供穩定、高效、開放的大數據基礎組件與基礎平臺。

目次

目錄
第Ⅰ部分 Hadoop架構與Hadoop集群介紹
第1章 Hadoop與Hadoop環境介紹............................................................................... 3
Hadoop簡介.........................................................................................................................4
Hadoop 的特性............................................................................................................5
Hadoop 與大數據........................................................................................................5
Hadoop 的典型應用場景............................................................................................6
傳統數據庫系統..........................................................................................................7
數據湖..........................................................................................................................9
大數據、數據科學和Hadoop ..................................................................................10
Hadoop集群與集群計算................................................................................................... 11
集群計算.................................................................................................................... 11
Hadoop 集群..............................................................................................................12
Hadoop組件和Hadoop生態..............................................................................................14
Hadoop管理員需要做些什麼...........................................................................................16
Hadoop 管理―新的範式......................................................................................17
關於Hadoop 管理你需要知道的.............................................................................18
Hadoop 管理員的工具集..........................................................................................19
Hadoop 1和Hadoop 2的關鍵區別....................................................................................19
架構區別....................................................................................................................20
高可用性....................................................................................................................20
多計算引擎................................................................................................................21
xiv 目錄
分離處理和調度........................................................................................................21
Hadoop 1 和Hadoop 2 中的資源分配.....................................................................22
分布式數據處理:MapReduce和Spark、Hive、Pig ......................................................22
MapReduce ................................................................................................................22
Apache Spark .............................................................................................................23
Apache Hive ...............................................................................................................24
Apache Pig .................................................................................................................24
數據整合:Apache Sqoop、Apache Flume和Apache Kafka ..........................................25
Hadoop管理中的關鍵領域...............................................................................................26
集群存儲管理............................................................................................................26
集群資源分配............................................................................................................26
作業調度....................................................................................................................27
Hadoop 數據安全......................................................................................................27
總結....................................................................................................................................28
第2章 Hadoop架構介紹............................................................................................. 31
Hadoop與分布式計算.......................................................................................................31
Hadoop 架構......................................................................................................................32
Hadoop 集群..............................................................................................................33
主節點和工作節點....................................................................................................33
Hadoop 服務..............................................................................................................34
數據存儲―Hadoop分布式文件系統...........................................................................35
HDFS 特性................................................................................................................35
HDFS 架構................................................................................................................36
HDFS 文件系統........................................................................................................38
NameNode 操作........................................................................................................41
利用YARN(Hadoop操作系統)進行數據處理...........................................................45
YARN 的架構............................................................................................................46
ApplicationMaster 如何與ResourceManager 協作進行資源分配..........................51
總結....................................................................................................................................54
第3章 創建和配置一個簡單的Hadoop集群................................................................ 55
Hadoop發行版本和安裝類型...........................................................................................56
目錄xv
Hadoop 發行版本......................................................................................................56
Hadoop 安裝類型......................................................................................................57
設置一個偽分布式Hadoop集群.......................................................................................58
滿足操作系統的要求................................................................................................58
修改內核參數............................................................................................................59
設置SSH ...................................................................................................................64
Java 需求....................................................................................................................65
安裝Hadoop ..............................................................................................................66
創建必要的Hadoop 用戶.........................................................................................66
創建必要的目錄........................................................................................................67
Hadoop初始配置...............................................................................................................67
環境變量配置文件....................................................................................................69
只讀默認配置文件....................................................................................................70
site 專用配置文件.....................................................................................................70
其他Hadoop 相關的配置文件.................................................................................71
配置文件的優先級....................................................................................................72
可變擴展和配置參數................................................................................................74
配置Hadoop 守護進程環境變量.............................................................................74
配置Hadoop 的核心屬性(使用core-site.xml 文件)............................................76
配置MapReduce(使用mapred-site.xml 文件).....................................................78
配置YARN(使用yarn-site.xml 文件)...................................................................79
配置HDFS(使用hdfs-site.xml 文件)...................................................................80
操作新的Hadoop集群.......................................................................................................82
格式化分布式文件系統............................................................................................82
設置環境變量............................................................................................................82
啟動HDFS 和YARN 服務.......................................................................................83
驗證服務啟動............................................................................................................85
關閉服務....................................................................................................................85
總結....................................................................................................................................86
第4章 規劃和創建一個完全分布式集群..................................................................... 87
規劃Hadoop集群...............................................................................................................88
集群規劃注意事項....................................................................................................88
xvi 目錄
安排服務器................................................................................................................90
節點選擇的標準........................................................................................................90
從單機架到多機架............................................................................................................91
調整Hadoop 集群.....................................................................................................91
CPU、內存和存儲選擇的一般性原則....................................................................92
主節點的特殊要求....................................................................................................95
關於服務器大小的幾點建議....................................................................................96
集群增長....................................................................................................................97
大型集群指南............................................................................................................97
創建一個多節點集群........................................................................................................98
如何設置測試集群....................................................................................................98
修改Hadoop的配置.........................................................................................................102
更改HDFS 的配置(hdfs-site.xml 文件).............................................................102
更改YARN 的配置.................................................................................................105
修改MapReduce 的配置........................................................................................109
啟動集群.......................................................................................................................... 110
使用腳本啟動和關閉集群...................................................................................... 112
快速檢查新集群的文件系統.................................................................................. 113
配置Hadoop服務、Web界面和端口.............................................................................. 114
服務配置和Web 界面............................................................................................ 115
設置Hadoop 服務的端口....................................................................................... 117
Hadoop 客戶端........................................................................................................120
總結..................................................................................................................................122
第Ⅱ部分 Hadoop應用架構
第5章 在集群上運行一個應用―MapReduce框架和Hive、Pig ............................ 125
MapReduce框架..............................................................................................................125
MapReduce 模型.....................................................................................................126
MapReduce 怎樣工作.............................................................................................127
MapReduce 作業處理.............................................................................................129
一個簡單的MapReduce 程序................................................................................130
通過運行WordCount 程序理解Hadoop 作業的處理過程..................................132
目錄xvii
MapReduce 輸入/ 輸出目錄..................................................................................133
Hadoop 如何展示作業細節....................................................................................133
Hadoop Streaming ....................................................................................................135
Apache Hive .....................................................................................................................137
Hive 數據組織.........................................................................................................138
使用Hive 表............................................................................................................138
將數據導入Hive ....................................................................................................138
使用Hive 查詢........................................................................................................139
Apache Pig .......................................................................................................................139
Pig 執行模型...........................................................................................................140
一個簡單的Pig 示例..............................................................................................140
總結..................................................................................................................................141
第6章 集群上的應用―Spark框架介紹................................................................. 143
Spark是什麼....................................................................................................................144
為什麼使用Spark ...........................................................................................................145
速度..........................................................................................................................145
易用性......................................................................................................................147
通用框架..................................................................................................................148
Spark 和Hadoop ......................................................................................................148
Spark技術棧....................................................................................................................149
安裝Spark ........................................................................................................................151
Spark 示例...............................................................................................................152
Spark 的主要文件和目錄.......................................................................................153
編譯Spark 二進制文件..........................................................................................153
減少Spark 日誌......................................................................................................153
Spark運行模式................................................................................................................154
本地模式..................................................................................................................154
集群模式..................................................................................................................154
集群管理器......................................................................................................................154
獨立集群管理器......................................................................................................155
基於Apache Mesos 的Spark ..................................................................................157
基於YARN 的Spark ..............................................................................................158
xviii 目錄
YARN 和Spark 如何協同合作..............................................................................159
設置基於Hadoop 集群的Spark .............................................................................159
Spark和數據獲取............................................................................................................159
從Linux 文件系統加載數據..................................................................................160
從HDFS 加載數據.................................................................................................160
從關係型數據庫獲取數據......................................................................................161
總結..................................................................................................................................162
第7章 運行Spark應用程序....................................................................................... 163
Spark編程模型................................................................................................................163
Spark 編程和RDD ..................................................................................................164
Spark 編程...............................................................................................................166
Spark應用程序................................................................................................................167
RDD 基礎................................................................................................................168
創建RDD ................................................................................................................168
RDD 操作................................................................................................................171
RDD 持久化............................................................................................................173
Spark應用的結構............................................................................................................174
Spark 術語...............................................................................................................174
Spark 應用程序的組件...........................................................................................174
交互式運行Spark應用程序............................................................................................175
Spark shell 和Spark 應用程序...............................................................................176
Spark shell ................................................................................................................176
使用Spark shell .......................................................................................................176
Spark 集群執行概述...............................................................................................179
創建和提交Spark應用....................................................................................................180
構建Spark 應用......................................................................................................180
在獨立的Spark 集群上運行應用..........................................................................180
使用spark-submit 執行應用...................................................................................181
在Mesos 上運行Spark 應用..................................................................................183
在Hadoop YARN 集群上運行Spark 應用............................................................183
使用JDBC/ODBC 服務..........................................................................................186
配置Spark應用................................................................................................................187
目錄xix
Spark 的配置屬性...................................................................................................187
運行spark-submit 時的配置...........................................................................187
監控Spark應用................................................................................................................188
使用Spark Streaming處理流式計算...............................................................................189
Spark Streaming 如何工作......................................................................................189
Spark Streaming 示例,又是WordCount ..............................................................191
使用Spark SQL 處理結構化數據...................................................................................192
數據框架..................................................................................................................192
HiveContext 和SQLContext ...................................................................................193
使用Spark SQL .......................................................................................................193
創建DataFrames .....................................................................................................195
總結..................................................................................................................................195
第Ⅲ部分 管理和保護Hadoop數據和高可用性
第8章 NameNode的作用和HDFS的工作原理......................................................... 199
HDFS―NameNode與DataNode之間的交互.............................................................200
客戶端和HDFS 之間的交互.................................................................................200
NameNode 與DataNode 之間的通信....................................................................201
機架感知與拓撲邏輯......................................................................................................203
如何在集群中配置機架感知策略..........................................................................204
找出集群的機架信息..............................................................................................204
HDFS 數據副本..............................................................................................................206
HDFS 數據組織和數據塊......................................................................................207
數據複製..................................................................................................................207
文件塊和副本狀態..................................................................................................209
客戶端如何讀寫HDFS數據...........................................................................................213
客戶端如何讀取HDFS 數據.................................................................................213
客戶端如何向HDFS 寫數據.................................................................................214
瞭解HDFS恢復過程.......................................................................................................217
生成戳......................................................................................................................218
租約恢復..................................................................................................................218
塊恢復......................................................................................................................219
xx 目錄
管道恢復..................................................................................................................219
HDFS中的集中式緩存管理...........................................................................................220
Hadoop 和OS 的頁面緩存.....................................................................................221
集中式緩存管理的關鍵原則..................................................................................221
集中式緩存管理如何工作......................................................................................221
配置緩存..................................................................................................................222
緩存指令..................................................................................................................223
緩存池......................................................................................................................223
使用緩存..................................................................................................................223
Hadoop歸檔存儲、SSD和內存(異構存儲)..............................................................225
不同存儲類型的性能特點......................................................................................225
對異構HDFS 存儲的需求.....................................................................................226
存儲體系結構的變化..............................................................................................227
文件的存儲首選項..................................................................................................228
設置歸檔存儲..........................................................................................................228
管理存儲策略..........................................................................................................232
移動數據..................................................................................................................232
實現歸檔..................................................................................................................233
總結..................................................................................................................................234
第9章 HDFS命令、HDFS權限和HDFS存儲............................................................ 235
使用HDFS Shell命令管理HDFS ....................................................................................235
使用hdfs dfs 實用程序來管理HDFS .............................................................237
列出HDFS 文件和目錄.........................................................................................239
創建HDFS 目錄.....................................................................................................241
刪除HDFS 文件和目錄.........................................................................................242
更改文件和目錄所有權和組..................................................................................242
使用dfsadmin實用程序執行HDFS操作........................................................................243
dfsadmin -report 命令..................................................................................245
管理HDFS權限和用戶...................................................................................................247
HDFS 文件權限......................................................................................................247
HDFS 用戶和超級用戶..........................................................................................249
管理HDFS存儲...............................................................................................................252
目錄xxi
檢查HDFS 磁盤使用情況.....................................................................................252
分配HDFS 空間配額.............................................................................................255
重新均衡HDFS數據.......................................................................................................259
HDFS 數據不均衡的原因......................................................................................260
運行均衡器以均衡HDFS 數據.............................................................................260
使用hdfs dfsadmin 使事情更簡單.........................................................................263
何時運行均衡器......................................................................................................265
回收HDFS空間...............................................................................................................266
刪除文件和目錄......................................................................................................266
降低複製因子..........................................................................................................266
總結..................................................................................................................................268
第10章 數據保護、文件格式和訪問HDFS ............................................................... 269
保護數據..........................................................................................................................270
使用HDFS 回收站防止意外數據刪除.................................................................270
使用HDFS 快照保護重要數據.............................................................................272
通過文件系統檢查確保數據完整性......................................................................276
數據壓縮..........................................................................................................................281
常用壓縮格式..........................................................................................................282
評估各種壓縮方案..................................................................................................282
MapReduce 的各個階段的壓縮.............................................................................283
Spark 的壓縮...........................................................................................................286
數據序列化..............................................................................................................286
Hadoop文件格式.............................................................................................................287
確定正確文件格式的標準......................................................................................288
Hadoop 支持的文件格式.........................................................................

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 877
海外經銷商無庫存,到貨日平均30天至45天

暢銷榜

客服中心

收藏

會員專區