将输入文件中的文本替换为 Hadoop MR

我是MR和Hadoop方面的新手。我写了一个MR用于在csv文件中查找丢失的，它工作正常。现在我有一个用例，我需要解析一个 csv 文件并使用相关类别对其进行编码。

例如："11，ABC，XYZ，51,61,78"，"11，ADC，ryz，41,71,38",.............

现在必须将其替换为"1，abc，xyz，5,6,7"，"1，adc，ryz，4,7,3",.............

在这里，我正在做一个 10 的 mod，但会有不同的 Mod 情况。数据大小以 GB 为单位。

我想知道如何就地替换输入的内容。MR可以做到这一点吗？

基本上，我还没有在任何地方看到任何基于文件处理或写入的Hadoop示例。

在这一点上，我不想去HBase或其他数据库工具。

您不能就地替换数据，因为 HDFS 文件仅是追加的，无法编辑。
我认为实现目标的最简单方法是在 Hive 中注册数据作为外部表，并在 HQL 中编写您的 trnasformation。
Hive是一个坐在Hadoop旁边的系统，并将你的查询转换为MR Jobs。它的使用不是严肃的基础结构决策，因为 HBASE 的使用

相关内容

最新更新

热门标签：