我一直在阅读关于使用hadoop进行实时处理的文章,并偶然发现了这一点http://www.scaleoutsoftware.com/hserver/
从文档中可以看出,他们似乎使用hadoopworker/slave节点实现了一个内存中的数据网格。,我有几个问题
-
根据我的理解,如果我有一个大小为100GB的数据,我至少需要集群上所有节点的100GB内存,仅用于数据+用于任务跟踪器的额外内存、数据节点守护进程+用于将在所有这些节点上运行的hServer服务的额外内存。我的理解正确吗?
-
该软件声称,他们可以通过改善hadoop中的延迟问题来进行实时数据处理。是因为它允许我们将数据写入内存网格而不是HDFS吗?
我是大数据技术的新手。如果有些问题太天真,请道歉。
[完全披露:我在ScaleOut Software工作,该公司创建了ScaleOut hServer。]
-
内存中的数据网格为每个对象创建一个复制副本,以确保在出现故障时具有高可用性所需的内存总量是用于存储对象的内存,加上用于存储对象副本的内存在您的示例中,您将需要200 GB的总内存:100 GB用于对象,100 GB用于复制副本。例如,在一个四服务器集群中,每台服务器都需要50 GB的内存可用于ScaleOut hServer服务。
-
在当前版本中,ScaleOut hServer通过加快数据访问速度,迈出了实现实时分析的第一步。它通过两种方式来实现,这两种方式使用不同的输入/输出格式来实现。第一种操作模式使用网格作为HDFS的缓存,第二种操作模式将网格用作数据集的主存储,为快速变化的基于内存的数据提供支持使用内存中的数据网格访问数据可以消除磁盘I/O并最大限度地减少网络开销,从而减少延迟此外,缓存HDFS数据通过在网格中存储由记录读取器生成的键和值而不是原始HDFS文件来提供额外的性能提升。