在 Hadoop应用程序中读取和写入 CSV 文件



我需要将自定义csv文件作为输入进行处理,并将csv文件写回HDFS。我可以直接在真实发生的地图归约类中执行此操作吗?

为了处理我的csv文件,我正在使用opencsv库。我看过一些教程,其中他们使用inputformat和outputformat标志来指定处理用户定义格式的java类。有人可以就如何使用csv文件提供建议吗?

我想坚持使用hadoop所提供的东西,否则我自己对输入和输出格式的实现可能会使我的处理速度变慢。

问题是您是否需要多行csv。
如果你不需要它 - 你可以使用vanilla TextInputFormat和TextOutputFormat,并在映射器中使用opencsv来解析行。对于输出文本输出格式也很好
如果您需要多行 - 您必须进行一些黑客操作来组装逻辑记录。您可以为其创建自己的输入格式,也可以在映射器中执行此操作。

相关内容

  • 没有找到相关文章

最新更新