【Spark】电子书 - Spark最佳实践陈欢,林世飞著-后端电子书论坛-IT电子书-IT面试吧

【Spark】电子书 - Spark最佳实践陈欢,林世飞著

该帖子部分内容已隐藏
付费阅读
金币 3
此内容为付费阅读,请付费后查看

书籍封面

书籍目录

封面

书名

版权

前言

目录

第1章 Spark与大数据 

1.1 大数据的发展及现状 

1.1.1 大数据时代所面临的问题 

1.1.2 谷歌的大数据解决方案 

1.1.3 Hadoop生态系统 

1.2 Spark应时而生 

1.2.1 Spark的起源 

1.2.2 Spark的特点 

1.2.3 Spark的未来发展 

第2章 Spark基础 

2.1 Spark本地单机模式体验 

2.1.1 安装虚拟机 

2.1.2 安装JDK 

2.1.3 下载Spark预编译包 

2.1.4 本地体验Spark 

2.2 高可用Spark分布式集群部署 

2.2.1 集群总览 

2.2.2 集群机器的型号选择 

2.2.3 初始化集群机器环境 

2.2.4 部署ZooKeeper集群 

2.2.5 编译Spark 

2.2.6 部署Spark Standalone集群 

2.2.7 高可用Hadoop集群 

2.2.8 让Spark运行在YARN上 

2.2.9 一键部署高可用Hadoop +Spark集群 

2.3 Spark编程指南 

2.3.1 交互式编程 

2.3.2 RDD创建 

2.3.3 RDD操作 

2.3.4 使用其他语言开发Spark程序 

2.4 打包和提交 

2.4.1 编译、链接、打包 

2.4.2 提交 

第3章 Spark工作机制 

3.1 调度管理 

3.1.1 集群概述及名词解释 

3.1.2 Spark程序之间的调度 

3.1.3 Spark程序内部的调度 

3.2 内存管理 

3.2.1 RDD持久化 

3.2.2 共享变量 

3.3 容错机制 

3.3.1 容错体系概述 

3.3.2 Master节点失效 

3.3.3 Slave节点失效 

3.4 监控管理 

3.4.1 Web界面 

3.4.2 REST API 

3.4.3 Metrics指标体系 

3.4.4 其他监控工具 

3.5 Spark程序配置管理 

3.5.1 Spark程序配置加载过程 

3.5.2 环境变量配置 

3.5.3 Spark属性项配置 

3.5.4 查看当前的配置 

3.5.5 配置Spark日志 

第4章 Spark内核讲解 

4.1 Spark核心数据结构RDD 

4.1.1 RDD的定义 

4.1.2 RDD的Transformation 

4.1.3 RDD的Action 

4.1.4 Shuffle 

4.2 SparkContext 

4.2.1 SparkConf配置 

4.2.2 初始化过程 

4.2.3 其他功能接口 

4.3 DAG调度 

4.3.1 DAGScheduler 

4.3.2 TaskScheduler 

第5章 Spark SQL与数据仓库 

5.1 Spark SQL基础 

5.1.1 分布式SQL引擎 

5.1.2 支持的SQL语法 

5.1.3 支持的数据类型 

5.1.4 DataFrame 

5.1.5 DataFrame数据源 

5.1.6 性能调优 

5.2 Spark SQL原理和运行机制 

5.2.1 Spark SQL整体架构 

5.2.2 Catalyst执行优化器 

5.3 应用场景:基于淘宝数据建立电商数据仓库 

5.3.1 电商数据仓库场景 

5.3.2 数据准备和表设计 

5.3.3 用Spark SQL来完成日常运营数据分析 

5.3.4 Spark SQL在大规模数据下的性能表现 

第6章 Spark流式计算 

6.1 Spark Streaming基础知识 

6.1.1 入门简单示例 

6.1.2 基本概念 

6.1.3 高级操作 

6.2 深入理解Spark Streaming 

6.2.1 DStream的两类操作 

6.2.2 容错处理 

6.2.3 性能调优 

6.2.4 与Storm的对比 

6.3 应用场景:一个类似百度统计的流式实时系统 

6.3.1 Web log实时统计场景 

6.3.2 日志实时采集 

6.3.3 流式分析系统实现 

第7章 Spark图计算 

7.1 什么是图计算 

7.1.1 图的基本概念 

7.1.2 图计算的应用 

7.2 Spark GraphX简介 

7.2.1 GraphX实现 

7.2.2 GraphX常用API介绍 

7.3 应用场景:基于新浪微博数据的社交网络分析 

7.3.1 社交网络分析的主要应用 

7.3.2 社区发现算法简介 

7.3.3 用GraphX实现Louvain算法 

7.3.4 小试牛刀:谁是你的闺蜜 

分析 

第8章 Spark MLlib 

8.1 机器学习简介 

8.1.1 什么是机器学习 

8.1.2 机器学习示例 

8.1.3 机器学习的基本方法 

8.1.4 机器学习的常见技巧 

8.1.5 机器学习参考资料 

8.2 MLlib库简介 

8.2.1 基础数据类型 

8.2.2 主要的库 

8.2.3 附带的示例程序 

8.3 应用场景:搜索广告点击率预估系统 

8.3.1 应用场景 

8.3.2 逻辑回归 

8.3.3 学习算法 

8.3.4 模型评估 

8.3.5 数据准备 

8.3.6 模型训练 

8.3.7 模型调优 

附录 Scala语言参考 

封底

下载地址

请登录后发表评论

    没有回复内容