我在博客上读到过,它说
Hadoop 以批处理为中心,非常适合发现、探索和分析大量不适合表格且不适合实时操作的多结构化数据。
因此,任何人都可以通过对此提供更好的解释来帮助我,例如它不适合实时操作。TQ
对于实时处理,你有HBase,它是Hadoop生态系统的一部分:
http://hbase.apache.org/
Apache HBase是Hadoop数据库,一个分布式的,可扩展的,大的。 数据存储。
我什么时候会使用 Apache HBase?
当您需要随机、实时读/写访问时,请使用 Apache HBase 您的大数据。该项目的目标是托管非常大的桌子 -- 数十亿行 X 数百万列 -- 在商用硬件集群之上。Apache HBase是一个开源的,分布式的, 以Google的Bigtable为模型的版本化非关系数据库:A 结构化数据的分布式存储系统 作者:Chang et al.就像 Bigtable利用谷歌提供的分布式数据存储。 文件系统,Apache HBase在顶部提供了类似Bigtable的功能 Hadoop和HDFS。
特征
- 线性和模块化可扩展性。
- 列表项
- 严格一致的读写。
- 自动和可配置的表分片
- 区域服务器之间的自动故障转移支持。
- 方便的基类,用于使用 Apache HBase 表支持 Hadoop MapReduce 作业。
- 易于使用的 Java API 进行客户端访问。
- 用于实时查询的块缓存和布隆过滤器。
- 通过服务器端筛选器向下推送查询谓词
- Thrift 网关和支持 XML、Protobuf 和二进制数据编码选项的 REST-ful Web 服务
- 可扩展的基于 jruby 的 (JIRB) shell
- 支持通过Hadoop指标子系统将指标导出到文件或Ganglia;或通过JMX
它还支持原子计数器,这是 HBase 的强项之一,可以帮助您减少对大型分析作业的需求(通过仔细和计划的行键和架构设计)。
Hadoop MapReduce不适合实时处理。
但现在,这种情况正在改变。例如,Storm,Spark提供了近乎实时的处理能力。
Spark 在内存计算中使用,以实现更快的处理速度。它使用RDD(弹性分布式数据集)作为内存抽象。
其中,风暴使用喷口(源)和螺栓(汇)的DAG。这称为拓扑,拓扑保持运行。即,它从喷口获取数据并提供给螺栓。Bolts 可以将此数据写入数据库或使其可供用户使用。这减少了处理时间。