【大数据】电子书 - 华为大数据应用开发指南

开源慈善家

30天前发布

290

该帖子部分内容已隐藏

书籍目录

前言

1 安全模式

1.1 安全认证接口

1.1.1 安全认证原理和认证机制

1.1.2 安全认证接口简介

1.1.3 安全认证样例代码

1.1.3.1 配置信息初始化

1.1.3.2 统一认证工具类

1.1.4 认证失败处理FAQ

1.2 CQL开发指南

1.2.1 概述

1.2.2 开发环境准备

1.2.3 开发指引

1.2.4 代码样例

1.2.5 运行应用

1.2.6 对外接口

1.3 HBase开发指南

1.3.1 概述

1.3.1.1 应用开发简介

1.3.1.2 常用概念

1.3.1.3 开发流程

1.3.2 准备开发环境

1.3.2.1 开发环境简介

1.3.2.2 准备Eclipse与JDK

1.3.2.3 下载HBase客户端

1.3.2.4 准备运行环境

1.3.2.4.1 准备Windows运行环境

1.3.2.4.2 准备Linux客户端运行环境

1.3.2.5 配置并导入工程

1.3.2.6 准备安全认证

1.3.2.6.1 准备认证机制代码

1.3.3 开发程序

1.3.3.1 典型场景说明

1.3.3.2 开发思路

1.3.3.3 样例代码说明

1.3.3.3.1 创建Configuration

1.3.3.3.2 创建Connection

1.3.3.3.3 创建表

1.3.3.3.4 删除表

1.3.3.3.5 修改表

1.3.3.3.6 插入数据

1.3.3.3.7 删除数据

1.3.3.3.8 使用Get读取数据

1.3.3.3.9 使用Scan读取数据

1.3.3.3.10 使用过滤器Filter

1.3.3.3.11 创建二级索引

1.3.3.3.12 删除索引

1.3.3.3.13 基于二级索引的查询

1.3.3.3.14 写MOB表

1.3.3.3.15 读MOB数据

1.3.3.3.16 Region的多点分割

1.3.3.3.17 ACL安全配置

1.3.3.3.18 HBase支持全文索引

1.3.4 调测程序

1.3.4.1 在Windows中调测程序

1.3.4.1.1 编译并运行程序

1.3.4.1.2 查看调测结果

1.3.4.2 在Linux中调测程序

1.3.4.2.1 安装客户端时编译并运行程序

1.3.4.2.2 未安装客户端时编译并运行程序

1.3.4.2.3 查看调测结果

1.3.5 更多信息

1.3.5.1 SQL查询

1.3.5.2 HBase文件存储

1.3.5.2.1 配置HBase文件存储

1.3.5.2.2 Java API

1.3.5.3 对外接口

1.3.5.3.1 Shell

1.3.5.3.2 Java API

1.3.5.3.3 Sqlline

1.3.5.3.4 JDBC API

1.3.5.3.5 Web UI

1.3.5.4 FAQ

1.3.5.4.1 设置Eclipse的文本文件编码格式，解决乱码显示问题

1.3.5.4.2 运行HBase应用开发程序产生异常，提示信息包含org.apache.hadoop.hbase.ipc.controller.ServerRpcControllerFactory的解决办法

1.3.5.4.3 bulkload和put应用场景

1.4 HDFS开发指南

1.4.1 概述

1.4.1.1 HDFS简介

1.4.1.2 常用概念

1.4.1.3 开发流程

1.4.2 准备开发环境

1.4.2.1 开发环境简介

1.4.2.2 准备Eclipse与JDK

1.4.2.3 准备运行环境

1.4.2.3.1 准备Windows运行环境

1.4.2.3.2 准备Linux客户端运行环境

1.4.2.4 获取并导入样例工程

1.4.2.5 创建工程（可选）

1.4.2.6 准备安全认证

1.4.3 开发程序

1.4.3.1 场景说明

1.4.3.2 开发思路

1.4.3.3 样例代码说明

1.4.3.3.1 HDFS初始化

1.4.3.3.2 写文件

1.4.3.3.3 追加文件内容

1.4.3.3.4 读文件

1.4.3.3.5 删除文件

1.4.3.3.6 Colocation

1.4.3.3.7 SmallFS操作

1.4.3.3.8 设置存储策略

1.4.4 调测程序

1.4.4.1 在Windows中调测程序

1.4.4.1.1 编译并运行程序

1.4.4.1.2 查看调测结果

1.4.4.2 在Linux中调测程序

1.4.4.2.1 安装客户端时编译并运行程序

1.4.4.2.2 未安装客户端时编译并运行程序

1.4.4.2.3 查看调测结果

1.4.5 更多信息

1.4.5.1 常用API介绍

1.4.5.1.1 Java API

1.4.5.1.2 C API

1.4.5.1.3 HTTP REST API

1.4.5.2 Shell命令介绍

1.5 Hive开发指南

1.5.1 概述

1.5.1.1 应用开发简介

1.5.1.2 常用概念

1.5.1.3 权限要求

1.5.1.4 开发流程

1.5.2 环境准备

1.5.2.1 环境简介

1.5.2.2 准备Eclipse与JDK

1.5.2.3 准备JDBC客户端开发环境

1.5.2.4 准备Python客户端开发环境

1.5.2.5 准备HCatalog开发环境

1.5.2.6 准备ODBC开发环境

1.5.2.6.1 Windows环境

1.5.2.6.2 Linux环境

1.5.2.6.3 附录

1.5.2.7 准备认证机制代码

1.5.3 开发程序

1.5.3.1 典型场景说明

1.5.3.2 样例代码

1.5.3.2.1 创建表

1.5.3.2.2 数据加载

1.5.3.2.3 数据查询

1.5.3.2.4 用户自定义函数

1.5.3.2.5 样例程序指导

1.5.4 调测程序

1.5.4.1 JDBC客户端运行及结果查看

1.5.4.2 Python客户端运行及结果查看

1.5.4.3 HCatalog运行及结果查看

1.5.4.4 ODBC客户端运行及结果查看

1.5.4.4.1 Windows环境

1.5.4.4.2 Linux环境

1.5.5 更多信息

1.5.5.1 对外接口

1.5.5.1.1 JDBC

1.5.5.1.2 Hive SQL

1.5.5.1.3 WebHCat

1.5.5.1.4 ODBC

1.5.5.2 FAQ

1.5.5.2.1 使用二次开发程序产生异常，提示“Unable to read HiveServer2 configs from ZooKeeper”信息

1.5.5.2.2 使用IBM JDK产生异常，提示“Problem performing GSS wrap”信息

1.6 Kafka开发指南

1.6.1 概述

1.6.1.1 应用开发简介

1.6.1.2 常用概念

1.6.1.3 开发流程

1.6.2 准备开发环境

1.6.2.1 开发环境简介

1.6.2.2 准备Eclipse和JDK

1.6.2.3 Windows客户端安装

1.6.2.4 导入样例工程

1.6.2.5 配置说明

1.6.2.6 Linux客户端安装

1.6.2.7 准备安全认证

1.6.3 开发程序

1.6.3.1 典型场景说明

1.6.3.2 样例代码说明

1.6.3.2.1 旧Producer API使用样例

1.6.3.2.2 旧Consumer API使用样例

1.6.3.2.3 多线程Producer样例

1.6.3.2.4 多线程Consumer样例

1.6.3.2.5 新Producer API使用样例

1.6.3.2.6 新Consumer API使用样例

1.6.4 调测程序

1.6.4.1 在Windows中调测程序

1.6.4.2 在Linux中调测程序

1.6.5 更多信息

1.6.5.1 对外接口

1.6.5.1.1 Shell命令

1.6.5.1.2 Java API

1.6.5.1.3 安全接口说明

1.6.5.1.4 客户端SSL加密功能使用说明

1.6.5.2 FAQ

1.6.5.2.1 样例运行时提示Topic鉴权失败“example-metric1=TOPIC_AUTHORIZATION_FAILED”

1.6.5.2.2 已经拥有Topic访问权限，但是运行Producer.java样例运行获取元数据失败“ERROR fetching topic metadata for topics...”的解决办法

1.7 MapReduce开发指南

1.7.1 概述

1.7.1.1 MapReduce简介

1.7.1.2 常用概念

1.7.1.3 开发流程

1.7.2 准备开发环境

1.7.2.1 开发环境简介

1.7.2.2 准备Eclipse与JDK

1.7.2.3 准备运行环境

1.7.2.3.1 准备Windows运行环境

1.7.2.3.2 准备Linux运行环境

1.7.2.4 获取并导入样例工程

1.7.2.5 创建工程（可选）

1.7.2.6 准备安全认证

1.7.3 开发程序

1.7.3.1 MapReduce统计样例程序

1.7.3.1.1 典型场景说明

1.7.3.1.2 样例代码说明

1.7.4 调测程序

1.7.4.1 在Windows环境中调测程序

1.7.4.1.1 编译并运行程序

1.7.4.1.2 查看调测结果

1.7.4.2 在Linux环境中运行程序

1.7.4.2.1 编译并运行程序

1.7.4.2.2 查看调测结果

1.7.5 更多信息

1.7.5.1 常用API介绍

1.7.5.2 FAQ

1.7.5.2.1 提交MapReduce任务时客户端长时间无响应

1.7.5.2.2 网络问题导致运行应用程序时出现异常

1.7.5.2.3 MapReduce二次开发远程调试

1.8 Oozie开发指南

1.8.1 概述

1.8.1.1 应用开发简介

1.8.1.2 常用概念

1.8.1.3 开发流程

1.8.2 环境准备

1.8.2.1 开发环境简介

1.8.2.2 准备Eclipse与JDK

1.8.2.3 准备运行环境

1.8.2.4 下载并导入样例工程

1.8.2.5 准备安全认证代码

1.8.3 开发程序

1.8.3.1 配置文件开发

1.8.3.1.1 场景说明

1.8.3.1.2 开发步骤

1.8.3.1.3 运行流程

1.8.3.2 代码样例

1.8.3.2.1 job.properties

1.8.3.2.2 workflow.xml

1.8.3.2.3 Start Action

1.8.3.2.4 End Action

1.8.3.2.5 Kill Action

1.8.3.2.6 FS Action

1.8.3.2.7 MapReduce Action

1.8.3.2.8 coordinator.xml

1.8.3.3 JAVA开发

1.8.3.3.1 场景说明

1.8.3.3.2 代码样例

1.8.4 调测程序

1.8.4.1 在Windows环境中调测程序

1.8.4.1.1 适配样例代码

1.8.4.1.2 编译并运行程序

1.8.4.1.3 查看调测结果

1.8.4.2 在Linux环境中运行程序

1.8.4.2.1 适配样例代码

1.8.4.2.2 编译并运行程序

1.8.4.2.3 查看调测结果

1.8.5 更多信息

1.8.5.1 常用API介绍

1.8.5.1.1 Shell

1.8.5.1.2 Java

1.8.5.1.3 Rest

1.9 Redis开发指南

1.9.1 概述

1.9.1.1 应用开发简介

1.9.1.2 常用概念

1.9.1.3 开发流程

1.9.2 准备开发环境

1.9.2.1 开发环境简介

1.9.2.2 准备Eclipse与JDK

1.9.2.3 下载Redis客户端

1.9.2.4 配置并导入工程

1.9.2.5 准备安全认证

1.9.2.5.1 准备认证机制代码

1.9.3 开发程序

1.9.3.1 典型场景说明

1.9.3.2 样例代码说明

1.9.3.2.1 Redis集群初始化

1.9.3.2.2 String类型存取

1.9.3.2.3 List类型存取

1.9.3.2.4 Hash类型存取

1.9.3.2.5 Set类型存取

1.9.3.2.6 Sorted Set类型存取

1.9.4 调测程序

1.9.4.1 在Windows中调测程序

1.9.4.1.1 编译并运行程序

1.9.4.1.2 查看调测结果

1.9.4.2 在Linux中调测程序

1.9.4.2.1 编译并运行程序

1.9.4.2.2 查看调测结果

1.9.5 更多信息

1.9.5.1 对外接口

1.9.5.1.1 Shell

1.9.5.1.2 Java API

1.10 Solr开发指南

1.10.1 概述

1.10.1.1 应用开发简介

1.10.1.2 常用概念

1.10.1.3 开发流程

1.10.2 开发环境准备

1.10.2.1 开发环境简介

1.10.2.2 准备Eclipse与JDK

1.10.2.3 下载Solr客户端

1.10.2.4 配置并导入工程

1.10.2.5 准备安全认证

1.10.2.5.1 准备认证机制代码

1.10.3 开发程序

1.10.3.1 典型场景说明

1.10.3.2 开发指引

1.10.3.3 样例代码说明

1.10.3.3.1 Solr初始化

1.10.3.3.2 查询collection

1.10.3.3.3 删除collection

1.10.3.3.4 创建collection

1.10.3.3.5 添加Doc

1.10.3.3.6 查询Doc

1.10.3.3.7 删除Doc

1.10.4 调测程序

1.10.4.1 在Windows中调测程序

1.10.4.1.1 编译并运行程序

1.10.4.1.2 查看调测结果

1.10.4.2 在Linux中调测程序

1.10.4.2.1 安装客户端时编译并运行程序

1.10.4.2.2 未安装客户端时编译并运行程序

1.10.4.2.3 查看调测结果

1.10.5 更多信息

1.10.5.1 对外接口

1.10.5.1.1 Shell

1.10.5.1.2 Java API

1.10.5.1.3 Web UI

1.11 Spark开发指南

1.11.1 概述

1.11.1.1 应用开发简介

1.11.1.2 常用概念

1.11.1.3 开发流程

1.11.2 环境准备

1.11.2.1 环境简介

1.11.2.2 准备开发环境

1.11.2.2.1 准备Java开发环境

1.11.2.2.2 准备Scala开发环境

1.11.2.2.3 准备Python开发环境

1.11.2.3 准备运行环境

1.11.2.4 下载并导入样例工程

1.11.2.5 新建工程（可选）

1.11.2.6 准备认证机制代码

1.11.2.7 准备开发用户

1.11.3 开发程序

1.11.3.1 Spark Core程序

1.11.3.1.1 场景说明

1.11.3.1.2 Java样例代码

1.11.3.1.3 Scala样例代码

1.11.3.1.4 Python样例代码

1.11.3.2 Spark SQL程序

1.11.3.2.1 场景说明

1.11.3.2.2 Java样例代码

1.11.3.2.3 Scala样例代码

1.11.3.3 Spark Streaming程序

1.11.3.3.1 场景说明

1.11.3.3.2 Java样例代码

1.11.3.3.3 Scala样例代码

1.11.3.4 通过JDBC访问Spark SQL的程序

1.11.3.4.1 场景说明

1.11.3.4.2 Java样例代码

1.11.3.4.3 Scala样例代码

1.11.3.5 Spark on HBase程序

1.11.3.5.1 场景说明

1.11.3.5.2 Java样例代码

1.11.3.5.3 Scala样例代码

1.11.3.6 从HBase读取数据再写入HBase

1.11.3.6.1 场景说明

1.11.3.6.2 Java样例代码

1.11.3.6.3 Scala样例代码

1.11.3.7 从Hive读取数据再写入HBase

1.11.3.7.1 场景说明

1.11.3.7.2 Java样例代码

1.11.3.7.3 Scala样例代码

1.11.3.8 Streaming从Kafka读取数据再写入HBase

1.11.3.8.1 场景说明

1.11.3.8.2 Java样例代码

1.11.3.8.3 Scala样例代码

1.11.4 调测程序

1.11.4.1 编包并运行程序

1.11.4.2 查看调测结果

1.11.5 调优程序

1.11.5.1 Spark Core调优

1.11.5.1.1 数据序列化

1.11.5.1.2 配置内存

1.11.5.1.3 设置并行度

1.11.5.1.4 使用广播变量

1.11.5.1.5 使用External Shuffle Service提升性能

1.11.5.1.6 Yarn模式下动态资源调度

1.11.5.1.7 配置进程参数

1.11.5.1.8 设计DAG

1.11.5.1.9 经验总结

1.11.5.2 SQL和DataFrame调优

1.11.5.2.1 Spark SQL join优化

1.11.5.2.2 通过Coprocessor提升数据处理性能

1.11.5.2.3 通过Custom Filter提升查询性能

1.11.5.2.4 优化数据倾斜场景下的Spark SQL性能

1.11.5.2.5 优化小文件场景下的Spark SQL性能

1.11.5.2.6 INSERT...SELECT操作调优

1.11.5.3 Spark Streaming调优

1.11.5.4 Spark CBO调优

1.11.6 更多信息

1.11.6.1 常用API介绍

1.11.6.1.1 Java

1.11.6.1.2 Scala

1.11.6.1.3 Python

1.11.6.2 常用CLI介绍

1.11.6.3 Thrift Server接口介绍

1.11.6.4 FAQ

1.11.6.4.1 如何添加自定义代码的依赖包

1.11.6.4.2 如何处理自动加载的依赖包

1.11.6.4.3 运行SparkStreamingKafka样例工程时报“类不存在”问题

1.11.6.4.4 SparkSQL UDF功能的权限控制机制

1.11.6.4.5 由于kafka配置的限制，导致Spark Streaming应用运行失败

1.11.6.4.6 执行Spark Core应用，尝试收集大量数据到Driver端，当Driver端内存不足时，应用挂起不退出

1.11.6.4.7 Spark应用名在使用yarn-cluster模式提交时不生效

1.11.6.4.8 如何使用IDEA远程调试

1.11.6.4.9 如何采用Java命令提交Spark应用

1.11.6.4.10 使用IBM JDK产生异常，提示“Problem performing GSS wrap”信息

1.12 Storm开发指南

1.12.1 概述

1.12.1.1 应用开发简介

1.12.1.2 常用概念

1.12.1.3 开发流程

1.12.2 准备开发环境

1.12.2.1 Windows开发环境准备

1.12.2.1.1 开发环境简介

1.12.2.1.2 准备Eclipse与JDK

1.12.2.1.3 下载Streaming客户端

1.12.2.1.4 配置并导入工程

1.12.2.2 Linux客户端环境准备

1.12.3 开发程序

1.12.3.1 典型场景说明

1.12.3.2 开发思路

1.12.3.3 代码样例说明

1.12.3.3.1 创建Spout

1.12.3.3.2 创建Bolt

1.12.3.3.3 创建Topology

1.12.4 运行应用

1.12.4.1 打包Eclipse代码

1.12.4.2 打包业务

1.12.4.2.1 Linux下打包过程

1.12.4.2.2 Windows下打包过程

1.12.4.3 提交拓扑

1.12.4.3.1 Linux中安装客户端时提交拓扑

1.12.4.3.2 Linux中未安装客户端时提交拓扑

1.12.4.3.3 Eclipse中远程提交拓扑

1.12.4.4 查看结果

1.12.5 更多信息

1.12.5.1 Storm-Kafka开发指引

1.12.5.2 Storm-Redis开发指引

1.12.5.3 Storm-JDBC开发指引

1.12.5.4 Storm-HDFS开发指引

1.12.5.5 Storm-HBase开发指引

1.12.5.6 Flux开发指引

1.12.5.7 对外接口

1.13 YARN开发指南

1.13.1 概述

1.13.2 对外接口

1.13.2.1 Command

1.13.2.2 Java API

1.13.2.3 REST API

2 普通模式

2.1 CQL开发指南

2.1.1 概述

2.1.2 开发环境准备

2.1.3 开发指引

2.1.4 代码样例

2.1.5 运行应用

2.1.6 对外接口

2.2 HBase开发指南

2.2.1 概述

2.2.1.1 应用开发简介

2.2.1.2 常用概念

2.2.1.3 开发流程

2.2.2 准备开发环境

2.2.2.1 开发环境简介

2.2.2.2 准备Eclipse与JDK

2.2.2.3 下载HBase客户端

2.2.2.4 准备运行环境

2.2.2.4.1 准备Windows运行环境

2.2.2.4.2 准备Linux客户端运行环境

2.2.2.5 配置并导入工程

2.2.3 开发程序

2.2.3.1 典型场景说明

2.2.3.2 开发思路

2.2.3.3 样例代码说明

2.2.3.3.1 创建Configuration

2.2.3.3.2 创建Connection

2.2.3.3.3 创建表

2.2.3.3.4 删除表

2.2.3.3.5 修改表

2.2.3.3.6 插入数据

2.2.3.3.7 删除数据

2.2.3.3.8 使用Get读取数据

2.2.3.3.9 使用Scan读取数据

2.2.3.3.10 使用过滤器Filter

2.2.3.3.11 创建二级索引

2.2.3.3.12 删除二级索引

2.2.3.3.13 基于二级索引的查询

2.2.3.3.14 写MOB表

2.2.3.3.15 读MOB数据

2.2.3.3.16 Region的多点分割

2.2.3.3.17 ACL安全配置

2.2.3.3.18 HBase支持全文索引

2.2.4 调测程序

2.2.4.1 在Windows中调测程序

2.2.4.1.1 编译并运行程序

2.2.4.1.2 查看调测结果

2.2.4.2 在Linux中调测程序

2.2.4.2.1 安装客户端时编译并运行程序

2.2.4.2.2 未安装客户端时编译并运行程序

2.2.4.2.3 查看调测结果

2.2.5 更多信息

2.2.5.1 SQL查询

2.2.5.2 HBase文件存储

2.2.5.2.1 配置HBase文件存储

2.2.5.2.2 Java API

2.2.5.3 对外接口

2.2.5.3.1 Shell

2.2.5.3.2 Java API

2.2.5.3.3 Sqlline

2.2.5.3.4 JDBC API

2.2.5.3.5 Web UI

2.2.5.4 FAQ

2.2.5.4.1 设置Eclipse的文本文件编码格式，解决乱码显示问题

2.2.5.4.2 运行HBase应用开发程序产生异常，提示信息包含org.apache.hadoop.hbase.ipc.controller.ServerRpcControllerFactory的解决办法

2.2.5.4.3 bulkload和put应用场景

2.3 HDFS开发指南

2.3.1 概述

2.3.1.1 HDFS简介

2.3.1.2 常用概念

2.3.1.3 开发流程

2.3.2 准备开发环境

2.3.2.1 开发环境简介

2.3.2.2 准备Eclipse与JDK

2.3.2.3 准备运行环境

2.3.2.3.1 准备Windows运行环境

2.3.2.3.2 准备Linux客户端运行环境

2.3.2.4 获取并导入样例工程

2.3.2.5 创建工程（可选）

2.3.3 开发程序

2.3.3.1 场景说明

2.3.3.2 开发思路

2.3.3.3 样例代码说明

2.3.3.3.1 HDFS初始化

2.3.3.3.2 写文件

2.3.3.3.3 追加文件内容

2.3.3.3.4 读文件

2.3.3.3.5 删除文件

2.3.3.3.6 Colocation

2.3.3.3.7 SmallFS操作

2.3.3.3.8 设置存储策略

2.3.4 调测程序

2.3.4.1 在Windows中调测程序

2.3.4.1.1 编译并运行程序

2.3.4.1.2 查看调测结果

2.3.4.2 在Linux中调测程序

2.3.4.2.1 安装客户端时编译并运行程序

2.3.4.2.2 未安装客户端时编译并运行程序

2.3.4.2.3 查看调测结果

2.3.5 更多信息

2.3.5.1 常用API介绍

2.3.5.1.1 Java API

2.3.5.1.2 C API

2.3.5.1.3 HTTP REST API

2.3.5.2 Shell命令介绍

2.4 Hive开发指南

2.4.1 概述

2.4.1.1 应用开发简介

2.4.1.2 常用概念

2.4.1.3 开发流程

2.4.2 环境准备

2.4.2.1 环境简介

2.4.2.2 准备Eclipse与JDK

2.4.2.3 准备JDBC客户端开发环境

2.4.2.4 准备Python客户端开发环境

2.4.2.5 准备HCatalog开发环境

2.4.3 开发程序

2.4.3.1 典型场景说明

2.4.3.2 样例代码

2.4.3.2.1 创建表

2.4.3.2.2 数据加载

2.4.3.2.3 数据查询

2.4.3.2.4 用户自定义函数

2.4.3.2.5 样例程序指导

2.4.4 调测程序

2.4.4.1 JDBC客户端运行及结果查看

2.4.4.2 Python客户端运行及结果查看

2.4.4.3 HCatalog运行及结果查看

2.4.5 更多信息

2.4.5.1 对外接口

2.4.5.1.1 JDBC

2.4.5.1.2 Hive SQL

2.4.5.1.3 WebHCat

2.4.5.2 FAQ

2.4.5.2.1 使用IBM JDK产生异常，提示“Problem performing GSS wrap”信息

2.5 Kafka开发指南

2.5.1 概述

2.5.1.1 应用开发简介

2.5.1.2 常用概念

2.5.1.3 开发流程

2.5.2 准备开发环境

2.5.2.1 开发环境简介

2.5.2.2 准备Eclipse和JDK

2.5.2.3 Windows客户端安装

2.5.2.4 导入样例工程

2.5.2.5 Linux客户端安装

2.5.3 开发程序

2.5.3.1 典型场景说明

2.5.3.2 样例代码说明

2.5.3.2.1 旧Producer API使用样例

2.5.3.2.2 旧Consumer API使用样例

2.5.3.2.3 多线程Producer样例

2.5.3.2.4 多线程Consumer样例

2.5.3.2.5 新Producer API使用样例

2.5.3.2.6 新Consumer API使用样例

2.5.4 调测程序

2.5.4.1 在Windows中调测程序

2.5.4.2 在Linux中调测程序

2.5.5 更多信息

2.5.5.1 对外接口

2.5.5.1.1 Shell命令

2.5.5.1.2 Java API

2.5.5.1.3 安全接口说明

2.5.5.2 FAQ

2.5.5.2.1 已经拥有Topic访问权限，但是运行Producer.java样例运行获取元数据失败“ERROR fetching topic metadata for topics...”的解决办法

2.6 MapReduce开发指南

2.6.1 概述

2.6.1.1 MapReduce简介

2.6.1.2 常用概念

2.6.1.3 开发流程

2.6.2 准备开发环境

2.6.2.1 开发环境简介

2.6.2.2 准备Eclipse与JDK

2.6.2.3 准备运行环境

2.6.2.3.1 准备Windows运行环境

2.6.2.3.2 准备Linux运行环境

2.6.2.4 获取并导入样例工程

2.6.2.5 创建工程（可选）

2.6.3 开发程序

2.6.3.1 MapReduce统计样例程序

2.6.3.1.1 典型场景说明

2.6.3.1.2 样例代码说明

2.6.4 调测程序

2.6.4.1 在Windows环境中调测程序

2.6.4.1.1 编译并运行程序

2.6.4.1.2 查看调测结果

2.6.4.2 在Linux环境中运行程序

2.6.4.2.1 编译并运行程序

2.6.4.2.2 查看调测结果

2.6.5 更多信息

2.6.5.1 常用API介绍

2.6.5.2 FAQ

2.6.5.2.1 提交MapReduce任务时客户端长时间无响应

2.6.5.2.2 MapReduce二次开发远程调试

2.7 Oozie开发指南

2.7.1 概述

2.7.1.1 应用开发简介

2.7.1.2 常用概念

2.7.1.3 开发流程

2.7.2 环境准备

2.7.2.1 开发环境简介

2.7.2.2 准备Eclipse与JDK

2.7.2.3 准备运行环境

2.7.2.4 下载并导入样例工程

2.7.3 开发程序

2.7.3.1 配置文件开发

2.7.3.1.1 场景说明

2.7.3.1.2 开发步骤

2.7.3.1.3 运行流程

2.7.3.2 代码样例

2.7.3.2.1 job.properties

2.7.3.2.2 workflow.xml

2.7.3.2.3 Start Action

2.7.3.2.4 End Action

2.7.3.2.5 Kill Action

2.7.3.2.6 FS Action

2.7.3.2.7 MapReduce Action

2.7.3.2.8 coordinator.xml

2.7.3.3 JAVA开发

2.7.3.3.1 场景说明

2.7.3.3.2 代码样例

2.7.4 调测程序

2.7.4.1 在Windows环境中调测程序

2.7.4.1.1 适配样例代码

2.7.4.1.2 编译并运行程序

2.7.4.1.3 查看调测结果

2.7.4.2 在Linux环境中运行程序

2.7.4.2.1 适配样例代码

2.7.4.2.2 编译并运行程序

2.7.4.2.3 查看调测结果

2.7.5 更多信息

2.7.5.1 常用API介绍

2.7.5.1.1 Shell

2.7.5.1.2 Java

2.7.5.1.3 Rest

2.8 Redis开发指南

2.8.1 概述

2.8.1.1 应用开发简介

2.8.1.2 常用概念

2.8.1.3 开发流程

2.8.2 准备开发环境

2.8.2.1 开发环境简介

2.8.2.2 准备Eclipse与JDK

2.8.2.3 下载Redis客户端

2.8.2.4 配置并导入工程

2.8.3 开发程序

2.8.3.1 典型场景说明

2.8.3.2 样例代码说明

2.8.3.2.1 Redis集群初始化

2.8.3.2.2 String类型存取

2.8.3.2.3 List类型存取

2.8.3.2.4 Hash类型存取

2.8.3.2.5 Set类型存取

2.8.3.2.6 Sorted Set类型存取

2.8.4 调测程序

2.8.4.1 在Windows中调测程序

2.8.4.1.1 编译并运行程序

2.8.4.1.2 查看调测结果

2.8.4.2 在Linux中调测程序

2.8.4.2.1 编译并运行程序

2.8.4.2.2 查看调测结果

2.8.5 更多信息

2.8.5.1 对外接口

2.8.5.1.1 Shell

2.8.5.1.2 Java API

2.9 Solr开发指南

2.9.1 概述

2.9.1.1 应用开发简介

2.9.1.2 常用概念

2.9.1.3 开发流程

2.9.2 开发环境准备

2.9.2.1 开发环境简介

2.9.2.2 准备Eclipse与JDK

2.9.2.3 下载Solr客户端

2.9.2.4 配置并导入工程

2.9.3 开发程序

2.9.3.1 典型场景说明

2.9.3.2 开发指引

2.9.3.3 样例代码说明

2.9.3.3.1 Solr初始化

2.9.3.3.2 查询collection

2.9.3.3.3 删除collection

2.9.3.3.4 创建collection

2.9.3.3.5 添加Doc

2.9.3.3.6 查询Doc

2.9.3.3.7 删除Doc

2.9.4 调测程序

2.9.4.1 在Windows中调测程序

2.9.4.1.1 编译并运行程序

2.9.4.1.2 查看调测结果

2.9.4.2 在Linux中调测程序

2.9.4.2.1 安装客户端时编译并运行程序

2.9.4.2.2 未安装客户端时编译并运行程序

2.9.4.2.3 查看调测结果

2.9.5 更多信息

2.9.5.1 对外接口

2.9.5.1.1 Shell

2.9.5.1.2 Java API

2.9.5.1.3 Web UI

2.10 Spark开发指南

2.10.1 概述

2.10.1.1 应用开发简介

2.10.1.2 常用概念

2.10.1.3 开发流程

2.10.2 环境准备

2.10.2.1 环境简介

2.10.2.2 准备开发环境

2.10.2.2.1 准备Java开发环境

2.10.2.2.2 准备Scala开发环境

2.10.2.2.3 准备Python开发环境

2.10.2.3 准备运行环境

2.10.2.4 下载并导入样例工程

2.10.2.5 新建工程（可选）

2.10.3 开发程序

2.10.3.1 Spark Core程序

2.10.3.1.1 场景说明

2.10.3.1.2 Java样例代码

2.10.3.1.3 Scala样例代码

2.10.3.1.4 Python样例代码

2.10.3.2 Spark SQL程序

2.10.3.2.1 场景说明

2.10.3.2.2 Java样例代码

2.10.3.2.3 Scala样例代码

2.10.3.3 Spark Streaming程序

2.10.3.3.1 场景说明

2.10.3.3.2 Java样例代码

2.10.3.3.3 Scala样例代码

2.10.3.4 通过JDBC访问Spark SQL的程序

2.10.3.4.1 场景说明

2.10.3.4.2 Java样例代码

2.10.3.4.3 Scala样例代码

2.10.3.5 Spark on HBase程序

2.10.3.5.1 场景说明

2.10.3.5.2 Java样例代码

2.10.3.5.3 Scala样例代码

2.10.3.6 从HBase读取数据再写入HBase

2.10.3.6.1 场景说明

2.10.3.6.2 Java样例代码

2.10.3.6.3 Scala样例代码

2.10.3.7 从Hive读取数据再写入HBase

2.10.3.7.1 场景说明

2.10.3.7.2 Java样例代码

2.10.3.7.3 Scala样例代码

2.10.3.8 Streaming从Kafka读取数据再写入HBase

2.10.3.8.1 场景说明

2.10.3.8.2 Java样例代码

2.10.3.8.3 Scala样例代码

2.10.4 调测程序

2.10.4.1 编包并运行程序

2.10.4.2 查看调测结果

2.10.5 调优程序

2.10.5.1 Spark Core调优

2.10.5.1.1 数据序列化

2.10.5.1.2 配置内存

2.10.5.1.3 设置并行度

2.10.5.1.4 使用广播变量

2.10.5.1.5 使用External Shuffle Service提升性能

2.10.5.1.6 Yarn模式下动态资源调度

2.10.5.1.7 配置进程参数

2.10.5.1.8 设计DAG

2.10.5.1.9 经验总结

2.10.5.2 SQL和DataFrame调优

2.10.5.2.1 Spark SQL join优化

2.10.5.2.2 通过Coprocessor提升数据处理性能

2.10.5.2.3 通过Custom Filter提升查询性能

2.10.5.2.4 优化数据倾斜场景下的Spark SQL性能

2.10.5.2.5 优化小文件场景下的Spark SQL性能

2.10.5.2.6 INSERT...SELECT操作调优

2.10.5.3 Spark Streaming调优

2.10.5.4 Spark CBO调优

2.10.6 更多信息

2.10.6.1 常用API介绍

2.10.6.1.1 Java

2.10.6.1.2 Scala

2.10.6.1.3 Python

2.10.6.2 常用CLI介绍

2.10.6.3 Thrift Server接口介绍

2.10.6.4 FAQ

2.10.6.4.1 如何添加自定义代码的依赖包

2.10.6.4.2 如何处理自动加载的依赖包

2.10.6.4.3 运行SparkStreamingKafka样例工程时报“类不存在”问题

2.10.6.4.4 由于kafka配置的限制，导致Spark Streaming应用运行失败

2.10.6.4.5 执行Spark Core应用，尝试收集大量数据到Driver端，当Driver端内存不足时，应用挂起不退出

2.10.6.4.6 Spark应用名在使用yarn-cluster模式提交时不生效

2.10.6.4.7 如何使用IDEA远程调试

2.10.6.4.8 如何采用Java命令提交Spark应用

2.10.6.4.9 使用IBM JDK产生异常，提示“Problem performing GSS wrap”信息

2.11 Storm开发指南

2.11.1 概述

2.11.1.1 应用开发简介

2.11.1.2 常用概念

2.11.1.3 开发流程

2.11.2 准备开发环境

2.11.2.1 Windows开发环境准备

2.11.2.1.1 开发环境简介

2.11.2.1.2 准备Eclipse与JDK

2.11.2.1.3 下载Streaming客户端

2.11.2.1.4 配置并导入工程

2.11.2.2 Linux客户端环境准备

2.11.3 开发程序

2.11.3.1 典型场景说明

2.11.3.2 开发思路

2.11.3.3 代码样例说明

2.11.3.3.1 创建Spout

2.11.3.3.2 创建Bolt

2.11.3.3.3 创建Topology

2.11.4 运行应用

2.11.4.1 打包Eclipse代码

2.11.4.2 打包业务

2.11.4.2.1 Linux下打包过程

2.11.4.2.2 Windows下打包过程

2.11.4.3 提交拓扑

2.11.4.3.1 Linux中安装客户端时提交拓扑

2.11.4.3.2 Linux中未安装客户端时提交拓扑

2.11.4.3.3 Eclipse中远程提交拓扑

2.11.4.4 查看结果

2.11.5 更多信息

2.11.5.1 Storm-Kafka开发指引

2.11.5.2 Storm-Redis开发指引

2.11.5.3 Storm-JDBC开发指引

2.11.5.4 Storm-HDFS开发指引

2.11.5.5 Storm-HBase开发指引

2.11.5.6 Flux开发指引

2.11.5.7 对外接口

2.12 YARN开发指南

2.12.1 概述

2.12.2 对外接口

2.12.2.1 Command

2.12.2.2 Java API

2.12.2.3 REST API

3 开发规范

3.1 MapReduce

3.1.1 规则

3.1.2 建议

3.1.3 示例

3.2 HBase

3.2.1 规则

3.2.2 建议

3.2.3 示例

3.2.4 附录

3.3 Spark

3.3.1 规则

3.3.2 建议

3.4 Hive

3.4.1 规则

3.4.2 建议

3.4.3 示例

3.5 HDFS

3.5.1 规则

3.5.2 建议

3.6 YARN

3.6.1 规则

3.7 Solr

3.7.1 规则

3.8 Kafka

3.8.1 规则

3.8.2 建议

3.9 Streaming

3.9.1 规则

3.9.2 建议

3.10 Redis

3.10.1 规则

3.10.2 建议

3.11 Oozie

3.11.1 规则

3.11.2 建议

下载地址

此处内容已隐藏，请付费后查看

评分

欢迎为Ta评分