我想实现hadoop mapreduce,并使用csv文件作为它的输入。所以,我想问,hadoop是否提供了任何方法来获取csv文件的值,或者我们只使用Java Split String函数来实现它?
谢谢大家。。。。。
默认情况下,Hadoop使用文本输入读取器,该读取器从输入文件逐行提供映射器。映射器中的关键是读取的行数。但是要小心CSV文件,因为单列/字段可能包含换行符。你可能想找一个像这样的CSV输入阅读器:
https://github.com/mvallebr/CSVInputFormat/blob/master/src/main/java/org/apache/hadoop/mapreduce/lib/input/CSVNLineInputFormat.java
但是,您必须在代码中拆分行。