【Spark】电子书 - Apache Spark源码剖析-后端电子书论坛-IT电子书-IT面试吧

【Spark】电子书 - Apache Spark源码剖析

该帖子部分内容已隐藏
付费阅读
金币 3
此内容为付费阅读,请付费后查看

书籍封面

书籍目录

第一部分Spark概述

第1章 初识Spark

1.1 大数据和Spark

1.1.1 大数据的由来

1.1.2 大数据的分析

1.1.3 Hadoop

1.1.4 Spark简介

1.2 与Spark的第一次亲密接触

1.2.1 环境准备

1.2.2 下载安装Spark

1.2.3 Spark下的WordCount

第二部分Spark核心概念

第2章 Spark整体框架

2.1 编程模型

2.1.1 RDD

2.1.2 Operation

2.2 运行框架

2.2.1 作业提交

2.2.2 集群的节点构成

2.2.3 容错处理

2.2.4 为什么是Scala

2.3 源码阅读环境准备

2.3.1 源码下载及编译

2.3.2 源码目录结构

2.3.3 源码阅读工具

2.3.4 本章小结

第3章 SparkContext初始化

3.1 spark-shell

3.2 SparkContext的初始化综述

3.3 Spark Repl综述

3.3.1 Scala Repl执行过程

3.3.2 Spark Repl

第4章 Spark作业提交

4.1 作业提交

4.2 作业执行

4.2.1 依赖性分析及Stage划分

4.2.2 Actor Model和Akka

4.2.3 任务的创建和分发

4.2.4 任务执行

4.2.5 Checkpoint和Cache

4.2.6 WebUI和Metrics

4.3 存储机制

4.3.1 Shuffle结果的写入和读取

4.3.2 Memory Store

4.3.3 存储子模块启动过程分析

4.3.4 数据写入过程分析

4.3.5 数据读取过程分析

4.3.6 TachyonStore

第5章 部署方式分析

5.1 部署模型

5.2 单机模式local

5.3 伪集群部署local-cluster

5.4 原生集群Standalone Cluster

5.4.1 启动Master

5.4.2 启动Worker

5.4.3 运行spark-shell

5.4.4 容错性分析

5.5 Spark On YARN

5.5.1 YARN的编程模型

5.5.2 YARN中的作业提交

5.5.3 Spark On YARN实现详解

5.5.4 SparkPi on YARN

第三部分Spark Lib

第6章 Spark Streaming

6.1 Spark Streaming整体架构

6.1.1 DStream

6.1.2 编程接口

6.1.3 Streaming WordCount

6.2 Spark Streaming执行过程

6.2.1 StreamingContext初始化过程

6.2.2 数据接收

6.2.3 数据处理

6.2.4 BlockRDD

6.3 窗口操作

6.4 容错性分析

6.5 Spark Streaming vs. Storm

6.5.1 Storm简介

6.5.2 Storm和Spark Streaming对比

6.6 应用举例

6.6.1 搭建Kafka Cluster

6.6.2 KafkaWordCount

第7章 SQL

7.1 SQL语句的通用执行过程分析

7.2 SQL On Spark的实现分析

7.2.1 SqlParser

7.2.2 Analyzer

7.2.3 Optimizer

7.2.4 SparkPlan

7.3 Parquet 文件和JSON数据集

7.4 Hive简介

7.4.1 Hive 架构

7.4.2 HiveQL On MapReduce执行过程分析

7.5 HiveQL On Spark详解

7.5.1 Hive On Spark环境搭建

7.5.2 编译支持Hadoop 2.x的Spark

7.5.3 运行Hive On Spark测试用例

第8章 GraphX

8.1 GraphX简介

8.1.1 主要特点

8.1.2 版本演化

8.1.3 应用场景

8.2 分布式图计算处理技术介绍

8.2.1 属性图

8.2.2 图数据的存储与分割

8.3 Pregel计算模型

8.3.1 BSP

8.3.2 像顶点一样思考

8.4 GraphX图计算框架实现分析

8.4.1 基本概念

8.4.2 图的加载与构建

8.4.3 图数据存储与分割

8.4.4 操作接口

8.4.5 Pregel在GraphX中的源码实现

8.5 PageRank

8.5.1 什么是PageRank

8.5.2 PageRank核心思想

第9章 MLLib

9.1 线性回归

9.1.1 数据和估计

9.1.2 线性回归参数求解方法

9.1.3 正则化

9.2 线性回归的代码实现

9.2.1 简单示例

9.2.2 入口函数train

9.2.3 最优化算法optimizer

9.2.4 权重更新update

9.2.5 结果预测predict

9.3 分类算法

9.3.1 逻辑回归

9.3.2 支持向量机

9.4 拟牛顿法

9.4.1 数学原理

9.4.2 代码实现

9.5 MLLib与其他应用模块间的整合

第四部分附录

附录A Spark源码调试

附录B 源码阅读技巧

下载地址

请登录后发表评论

    没有回复内容