书籍封面
书籍目录
封面
书名
版权
前言
目录
第1章 认识Apache Hadoop 和Apache HBase
分布式文件系统HDFS
HDFS 的数据格式
处理HDFS 中的数据
Apache HBase
总结
参考文献
第2章 用Apache Flume 处理流数据
我们需要Flume
Flume 是否适合呢?
Flume Agent 内部原理
配置Flume Agent
Flume Agent 之间的相互通信
复杂的流
复制数据到不同目的地
动态路由
Flume 的无数据丢失保证,Channel 和事务
Flume Channel 中的事务
Agent 失败和数据丢失
批量的重要性
重复怎么样?
运行Flume Agent
总结
参考文献
第3章 源(Source)
Source 的生命周期
Sink-to-Source 通信
Avro Source
Thrift Source
RPC Sources 的失败处理
HTTP Source
针对HTTP Source 写处理程序*
Spooling Directory Source
使用Deserializers 读取自定义格式*
Spooling Directory Source 性能
Syslog Source
Exec Source
JMS Source
转换JMS 消息为Flume 事件*
编写自定义Source*
Event-Driven Source 和Pollable Source
总结
参考文献
第4章 Channel
事务工作流
Flume 自带的Channel
Memory Channel
File Channel
总结
参考文献
第5章 Sink
Sink 的生命周期
优化Sink 的性能
写入到HDFS :HDFS Sink
理解Bucket
配置HDFS Sink
使用序列化器控制数据格式*
HBase Sink
用序列化器将Flume 事件转换成HBase Put 和Increment* .
RPC Sink
Avro Sink
Thrift Sink
Morphline Solr Sink
Elastic Search Sink
自定义数据格式*
其他Sink :Null Sink、Rolling File Sink 和Logger Sink
编写自定义Sink*
总结
参考文献
第6章 拦截器、Channel 选择器、Sink 组和
Sink 处理器
拦截器
时间戳拦截器
主机拦截器
静态拦截器
正则过滤拦截器
Morphline 拦截器
UUID 拦截器
编写拦截器*
Channel 选择器
复制Channel 选择器
多路复用Channel 选择器
自定义Channel 选择器*
Sink 组和Sink 处理器
Load-Balancing Sink 处理器
Failover Sink 处理器
总结
参考文献
第7章 发送数据到Flume* .
构建Flume 事件
Flume 客户端SDK
创建Flume RPC 客户端
RPC 客户端接口
所有RPC 客户端的公共配置参数
默认RPC 客户端
Load-Balancing RPC 客户端
Failover RPC 客户端
Thrift RPC 客户端
嵌入式Agent
配置嵌入式Agent
log4 j Appender
Load-Balancing log4 j Appender
总结
参考文献
第8章 规划、部署和监控Flume .
规划一个Flume 部署
修复时间
我的Flume Channel 需要多少容量?
多少层?
通过跨数据中心链接发送数据
层分片
部署Flume
部署自定义代码
监控Flume
从自定义组件报告度量
总结
参考文献
索引
没有回复内容