处理增量数据-Hadoop

我们在集群中有5年的数据，我们每天都在加载数据。每天添加的数据可能包含重复数据、部分修改的数据等。。

1。如何处理重复数据-是否应将其作为高级编程接口的一部分处理？清管器、蜂窝等。。或任何其他替代方案。

使用哪些hadoop生态系统组件对数据进行建模的最佳方式是什么。

如何处理重复数据

很难从HDFS原始数据中删除重复数据，所以我认为您的方法是正确的：在加载这些数据时使用pig或hive删除。

假设在给定了查找行的键的情况下，是否有一个用例可以查找两条记录之间的变化。

对于这种情况，您的意思是两个记录具有相同的密钥吗？

那么你想捕捉什么样的变化呢？

当您知道密钥时，您需要删除重复项以及两条记录之间的增量，您应该有一些标准来确定在数据部分更改的情况下要删除哪些数据。

在这两种情况下，您都可以拥有密钥的句柄和用于删除重复项的写入逻辑Map reduce似乎是一个不错的选择，因为它具有并行性、性能和基于密钥进行管理的能力。大多数情况下，您的需求可以在减速器中处理

查看Sqoop-merge是否适合您的用例。

从文档：合并工具允许您组合两个数据集，其中一个数据集中的条目应覆盖旧数据集的条目。例如，在上次修改模式下运行的增量导入将在HDFS中生成多个数据集，其中每个数据集中依次出现较新的数据。合并工具将把两个数据集"扁平化"为一个数据集，为每个主键获取最新的可用记录。

相关内容