盡管不懂,但還是挺喜歡的?雌饋(lái)很專(zhuān)業(yè),需要細(xì)看,開(kāi)始以為很厚,原來(lái)只有200多頁(yè)。挺好的一本書(shū)。值得推薦,闡述了原理方面的,需要細(xì)細(xì)琢磨,才能明白,不過(guò)有點(diǎn)貴,相對(duì)于頁(yè)數(shù)來(lái)說(shuō)!
spark大數(shù)據(jù)處理技術(shù)介紹
這是一本依據(jù)最新技術(shù)版本,系統(tǒng)、全面、詳細(xì)講解Spark的著作,作者結(jié)合自己在微軟和IBM的實(shí)踐經(jīng)驗(yàn)和對(duì)Spark源代碼的研究撰寫(xiě)而成。首先從技術(shù)層面講解了Spark的體系結(jié)構(gòu)、工作機(jī)制、安裝與部署、開(kāi)發(fā)環(huán)境搭建、計(jì)算模型、Benchmark、BDAS等內(nèi)容;然后從應(yīng)用角度講解了一些簡(jiǎn)單的、有代表性的案例;最后對(duì)Spark的性能優(yōu)化進(jìn)行了探討。
spark大數(shù)據(jù)處理技術(shù)目錄
前言
第1章 Spark簡(jiǎn)介
1.1 Spark是什么
1.2 Spark生態(tài)系統(tǒng)
1.3 Spark架構(gòu)
1.4 Spark分布式架構(gòu)與單機(jī)多核架構(gòu)的異同
1.5 Spark的企業(yè)級(jí)應(yīng)用
1.5.1 Spark在Amazon中的應(yīng)用
1.5.2 Spark在Yahoo!的應(yīng)用
1.5.3 Spark在西班牙電信的應(yīng)用
1.5.4 Spark在淘寶的應(yīng)用
1.6 本章小結(jié)
第2章 Spark集群的安裝與部署
2.1 Spark的安裝與部署
2.1.1 在Linux集群上安裝與配?
2.1.2 在Windows上安裝與配?
2.2 Spark集群初試
2.3 本章小結(jié)
第3章 Spark計(jì)算模型
3.1 Spark程序模型
3.2 彈性分布式數(shù)據(jù)集
3.2.1 RDD簡(jiǎn)介
3.2.2 RDD與分布式共享內(nèi)存的異同
3.2.3 Spark的數(shù)據(jù)存儲(chǔ)
3.3 Spark算子分類(lèi)及功能
3.3.1 Value型Transformation算子
3.3.2 Key-Value型Transformation算子
3.3.3 Actions算子
3.4 本章小結(jié)
第4章 Spark工作機(jī)制詳解
4.1 Spark應(yīng)用執(zhí)行機(jī)制
4.1.1 Spark執(zhí)行機(jī)制總覽
4.1.2 Spark應(yīng)用的概念
4.1.3 應(yīng)用提交與執(zhí)行方式
4.2 Spark調(diào)度與任務(wù)分配模塊
4.2.1 Spark應(yīng)用程序之間的調(diào)度
4.2.2 Spark應(yīng)用程序內(nèi)Job的調(diào)度
4.2.3 Stage和TaskSetManager調(diào)度方式
4.2.4 Task調(diào)度
4.3 Spark I/O機(jī)制
4.3.1 序列化
4.3.2 壓縮
4.3.3 Spark塊管理
4.4 Spark通信模塊
4.4.1 通信框架
4.4.2 Client、Master和Worker間的通信
4.5 容錯(cuò)機(jī)制
4.5.1 Lineage機(jī)制
4.5.2 Checkpoint機(jī)制
4.6 Shuffle機(jī)制
4.7 本章小結(jié)
第5章 Spark開(kāi)發(fā)環(huán)境配置及流程
5.1 Spark應(yīng)用開(kāi)發(fā)環(huán)境配置
5.1.1 使用Intellij開(kāi)發(fā)Spark程序
5.1.2 使用Eclipse開(kāi)發(fā)Spark程序
5.1.3 使用SBT構(gòu)建Spark程序
5.1.4 使用Spark Shell開(kāi)發(fā)運(yùn)行Spark程序
5.2 遠(yuǎn)程調(diào)試Spark程序
5.3 Spark編譯
5.4 配置Spark源碼閱讀環(huán)境
5.5 本章小結(jié)
第6章 Spark編程實(shí)戰(zhàn)
6.1 Word
6.2
6.3 中位數(shù)
6.4 倒排索引
6.5 Coun
6.6 傾斜連接
6.7 股票趨勢(shì)預(yù)測(cè)
6.8 本章小結(jié)
第7章 Benchmark使用詳解
7.1 Benchmark簡(jiǎn)介
7.1.1 Intel Hibench與Berkeley BigData
7.1.2 Hadoop Gr
7.1.3 Bigbench、BigDataBenchmark與T
7.1.4 其他Benc
7.2 Benchmark的組成
7.2.1 數(shù)據(jù)集
7.2.2 工作負(fù)載
7.2.3 度量指標(biāo)
7.3 Benchmark的使用
7.3.1 使用Hi
7.3.2 使用T
7.3.3 使用BigData
7.4 本章小結(jié)
第8章 BDAS簡(jiǎn)介
8.1 SQL on
8.1.1 使用Spark SQL的原因
8.1.2 Spark SQL架構(gòu)分析
8.1.3 Shark簡(jiǎn)介
8.1.4 Hive on
8.1.5 未來(lái)展望
8.2 Spark Stre
8.2.1 Spark Streaming簡(jiǎn)介
8.2.2 Spark Streaming架構(gòu)
8.2.3 Spark Streaming原理剖析
8.2.4 Spark Streaming調(diào)優(yōu)
8.2.5 Spark Streaming 實(shí)例
8.3 G
8.3.1 GraphX簡(jiǎn)介
8.3.2 GraphX的使用
8.3.3 GraphX架構(gòu)
8.3.4 運(yùn)行實(shí)例
8.4
8.4.1 MLlib簡(jiǎn)介
8.4.2 MLlib的數(shù)據(jù)存儲(chǔ)
8.4.3 數(shù)據(jù)轉(zhuǎn)換為向量(向量空間模型VSM)
8.4.4 MLlib中的聚類(lèi)和分類(lèi)
8.4.5 算法應(yīng)用實(shí)例
8.4.6 利用MLlib進(jìn)行電影推薦
8.5 本章小結(jié)
第9章 Spark性能調(diào)優(yōu)
9.1 配置參數(shù)
9.2 調(diào)優(yōu)技巧
9.2.1 調(diào)度與分區(qū)優(yōu)化
9.2.2 內(nèi)存存儲(chǔ)優(yōu)化
9.2.3 網(wǎng)絡(luò)傳輸優(yōu)化
9.2.4 序列化與壓縮
9.2.5 其他優(yōu)化方法
9.3 本章小結(jié)
- PC官方版
- 安卓官方手機(jī)版
- IOS官方手機(jī)版