【Spark】电子书 - Spark大数据分析核心概念技术及实践OCR-后端电子书论坛-IT电子书-IT面试吧

【Spark】电子书 - Spark大数据分析核心概念技术及实践OCR

该帖子部分内容已隐藏
付费阅读
金币 3
此内容为付费阅读,请付费后查看

书籍封面

书籍目录

第1章 大数据技术一览

1.1 Hadoop

1.1.1 HDFS

1.1.2 MapReduce

1.1.3 Hive

1.2数据序列化

1.2.1 Avro

1.2.2 Thrift

1.2.3 Protocol Buffers

1.2.4 SequenceFile

1.3列存储

1.3.1 RCFile

1.3.2 ORC

1.3.3 Parquet

1.4消息系统

1.4.1 Kafka

1.4.2 ZeroMQ

1.5 NoSQL

1.5.1 Cassandra

1.5.2 HBase

1.6分布式SQL查询引擎

1.6.1 Impala

1.6.2 Presto

1.6.3 Apache Drill

1.7总结

第2章 Scala编程

2.1函数式编程

2.1.1函数

2.1.2不可变数据结构

2.1.3一切皆表达式

2.2 Scala基础

2.2.1起步

2.2.2基础类型

2.2.3变量

2.2.4函数

2.2.5类

2.2.6单例

2.2.7样本类

2.2.8模式匹配

2.2.9操作符

2.2.10特质

2.2.11元组

2.2.12 Option类型

2.2.13集合

2.3一个单独的Scala应用程序

2.4总结

第3章 Spark Core

3.1概述

3.1.1主要特点

3.1.2理想的应用程序

3.2总体架构

3.2.1 worker

3.2.2集群管理员

3.2.3驱动程序

3.2.4执行者

3.2.5任务

3.3应用运行

3.3.1术语

3.3.2应用运行过程

3.4数据源

3.5 API

3.5.1 SparkContext

3.5.2 RDD

3.5.3创建RDD

3.5.4 RDD操作

3.5.5保存RDD

3.6惰性操作

3.7缓存

3.7.1 RDD的缓存方法

3.7.2 RDD缓存是可容错的

3.7.3缓存内存管理

3.8 Spark作业

3.9共享变量

3.9.1广播变量

3.9.2累加器

3.10总结

第4章 使用Spark shell进行交互式数据分析

4.1起步

4.1.1下载

4.1.2解压

4.1.3运行

4.2 REPL命令

4.3把Spark shell当成Scala shell使用

4.4数值分析

4.5日志分析

4.6总结

第5章 编写Spark应用

5.1 Spark中的Hello World

5.2编译并运行应用

5.2.1 sbt

5.2.2编译代码

5.2.3运行应用

5.3监控应用

5.4调试应用

5.5总结

第6章 Spark Streaming

6.1 Spark Streaming简介

6.1.1 Spark Streaming是一个Spark类库

6.1.2总体架构

6.1.3数据流来源

6.1.4接收器

6.1.5目的地

6.2 API

6.2.1 StreamingContext

6.2.2 Spark Streaming应用基本结构

6.2.3 DStream

6.2.4创建DStream

6.2.5处理数据流

6.2.6输出操作

6.2.7窗口操作

6.3一个完整的Spark Streaming应用

6.4总结

第7章 Spark SQL

7.1 Spark SQL简介

7.1.1和其他Spark库集成

7.1.2可用性

7.1.3数据源

7.1.4数据处理接口

7.1.5与Hive的互操作性

7.2性能

7.2.1磁盘I/O

7.2.2分区

7.2.3列存储

7.2.4内存中的列式缓存

7.2.5行跳过

7.2.6谓词下推

7.2.7查询优化

7.3应用

7.3.1 ETL

7.3.2数据可视化

7.3.3分布式JDBC/ODBC SQL查询引擎

7.3.4数据仓库

7.4 API

7.4.1关键抽象

7.4.2创建DataFrame

7.4.3在程序中使用SQL/HiveQL处理数据

7.4.4使用DataFrame API处理数据

7.4.5保存DataFrame

7.5内置函数

7.5.1聚合操作

7.5.2集合操作

7.5.3日期/时间

7.5.4数学

7.5.5字符串

7.5.6窗口

7.6 UDF和UDAF

7.7一个交互式分析的例子

7.8使用Spark SQL JDBC服务器进行交互式分析

7.9总结

第8章 使用Spark进行机器学习

8.1机器学习简介

8.1.1特征

8.1.2标签

8.1.3模型

8.1.4训练数据

8.1.5测试数据

8.1.6机器学习应用

8.1.7机器学习算法

8.1.8超参数

8.1.9模型评价

8.1.10机器学习的主要步骤

8.2 Spark机器学习库

8.3 MLlib概览

8.3.1与其他Spark库集成

8.3.2统计工具

8.3.3机器学习算法

8.4 MLIib API

8.4.1数据类型

8.4.2算法和模型

8.4.3模型评价

8.5 MLlib示例应用

8.5.1数据集

8.5.2目标

8.5.3代码

8.6 Spark ML

8.6.1 ML数据集

8.6.2 Transformer

8.6.3 Estimator

8.6.4 Pipeline

8.6.5 PipelineModel

8.6.6 Evaluator

8.6.7网格搜索

8.6.8 CrossValidator

8.7 Spark ML示例应用

8.7.1数据集

8.7.2目标

8.7.3代码

8.8总结

第9章 使用Spark进行图处理

9.1图简介

9.1.1无向图

9.1.2有向图

9.1.3有向多边图

9.1.4属性图

9.2 GraphX简介

9.3 GraphX API

9.3.1数据抽象

9.3.2创建图

9.3.3图属性

9.3.4图操作符

9.4总结

第10章 集群管理员

10.1独立集群管理员

10.1.1架构

10.1.2建立一个独立集群

10.1.3在独立集群中运行Spark应用

10.2 Apache Mesos

10.2.1架构

10.2.2建立一个Mesos集群

10.2.3在Mesos集群上运行Spark应用

10.3 YARN

10.3.1架构

10.3.2在YARN集群上运行Spark应用

10.4总结

第11章 监控

11.1监控独立集群

11.1.1监控Spark master

11.1.2监控Spark worker

11.2监控Spark应用

11.2.1监控一个应用所运行的作业

11.2.2监控一个作业的不同阶段

11.2.3监控一个阶段中的任务

11.2.4监控RDD存储

11.2.5监控环境

11.2.6监控执行者

11.2.7监控Spark流应用

11.2.8监控Spark SQL查询

11.2.9监控Spark SQL JDBC/ODBC服务器

11.3总结

参考文献

下载地址

请登录后发表评论

    没有回复内容