处理增量数据-Hadoop



我们在集群中有5年的数据,我们每天都在加载数据。每天添加的数据可能包含重复数据、部分修改的数据等。。

1。如何处理重复数据-是否应将其作为高级编程接口的一部分处理?清管器、蜂窝等。。或任何其他替代方案。

  1. 假设在给定了查找行的键的情况下,是否有一个用例可以查找两条记录之间的变化

使用哪些hadoop生态系统组件对数据进行建模的最佳方式是什么。

如何处理重复数据

很难从HDFS原始数据中删除重复数据,所以我认为您的方法是正确的:在加载这些数据时使用pighive删除。

假设在给定了查找行的键的情况下,是否有一个用例可以查找两条记录之间的变化。

对于这种情况,您的意思是两个记录具有相同的密钥吗?

那么你想捕捉什么样的变化呢?

当您知道密钥时,您需要删除重复项以及两条记录之间的增量,您应该有一些标准来确定在数据部分更改的情况下要删除哪些数据。

在这两种情况下,您都可以拥有密钥的句柄和用于删除重复项的写入逻辑Map reduce似乎是一个不错的选择,因为它具有并行性、性能和基于密钥进行管理的能力。大多数情况下,您的需求可以在减速器中处理

查看Sqoop-merge是否适合您的用例。

从文档:合并工具允许您组合两个数据集,其中一个数据集中的条目应覆盖旧数据集的条目。例如,在上次修改模式下运行的增量导入将在HDFS中生成多个数据集,其中每个数据集中依次出现较新的数据。合并工具将把两个数据集"扁平化"为一个数据集,为每个主键获取最新的可用记录。

最新更新