我正在编写一个MR代码,用于对HBASE和HDFS中可用的数据执行Regex模式匹配。我的输入文件是一个大型CSV文件,其中包含从HBASE获取唯一数据的键。这个输入文件可以有重复项。
我的问题在Main类中,我想读取Input文件并执行一些处理,并在将数据提供给mapper类之前将数据保存到hashmap中。在我看到的所有例子中,我们只能输入文件路径作为mapper类的输入,是否有一种方法来输入一个哈希映射到映射器,而不是一个文件?
谢谢Pranay Vyas以及
两件事:Map reduce对HDFS中的数据进行处理。因此,最好的选择是将地图数据保存为HDFS中的文件,然后转向map reduce。然而,由于您的数据来自HBase,为什么不使用它,读取数据并对其执行正则表达式操作。如果我错过了什么请告诉我