我是MR和Hadoop方面的新手。我写了一个MR用于在csv文件中查找丢失的,它工作正常。现在我有一个用例,我需要解析一个 csv 文件并使用相关类别对其进行编码。
例如:"11,ABC,XYZ,51,61,78","11,ADC,ryz,41,71,38",.............
现在必须将其替换为"1,abc,xyz,5,6,7","1,adc,ryz,4,7,3",.............
在这里,我正在做一个 10 的 mod,但会有不同的 Mod 情况。数据大小以 GB 为单位。
我想知道如何就地替换输入的内容。MR可以做到这一点吗?
基本上,我还没有在任何地方看到任何基于文件处理或写入的Hadoop示例。
在这一点上,我不想去HBase或其他数据库工具。
您不能就地替换数据,因为 HDFS 文件仅是追加的,无法编辑。
我认为实现目标的最简单方法是在 Hive 中注册数据作为外部表,并在 HQL 中编写您的 trnasformation。
Hive是一个坐在Hadoop旁边的系统,并将你的查询转换为MR Jobs。它的使用不是严肃的基础结构决策,因为 HBASE 的使用