将输入文件中的文本替换为 Hadoop MR



我是MR和Hadoop方面的新手。我写了一个MR用于在csv文件中查找丢失的,它工作正常。现在我有一个用例,我需要解析一个 csv 文件并使用相关类别对其进行编码。

例如:"11,ABC,XYZ,51,61,78","11,ADC,ryz,41,71,38",.............

现在必须将其替换为"1,abc,xyz,5,6,7","1,adc,ryz,4,7,3",.............

在这里,我正在做一个 10 的 mod,但会有不同的 Mod 情况。数据大小以 GB 为单位。

我想知道如何就地替换输入的内容。MR可以做到这一点吗?

基本上,我还没有在任何地方看到任何基于文件处理或写入的Hadoop示例。

在这一点上,我不想去HBase或其他数据库工具。

您不能就地替换数据,因为 HDFS 文件仅是追加的,无法编辑。
我认为实现目标的最简单方法是在 Hive 中注册数据作为外部表,并在 HQL 中编写您的 trnasformation。
Hive是一个坐在Hadoop旁边的系统,并将你的查询转换为MR Jobs。它的使用不是严肃的基础结构决策,因为 HBASE 的使用

相关内容

  • 没有找到相关文章

最新更新