将Hashmap作为输入给Mapper而不是文件



我正在编写一个MR代码,用于对HBASE和HDFS中可用的数据执行Regex模式匹配。我的输入文件是一个大型CSV文件,其中包含从HBASE获取唯一数据的键。这个输入文件可以有重复项。

我的问题在Main类中,我想读取Input文件并执行一些处理,并在将数据提供给mapper类之前将数据保存到hashmap中。在我看到的所有例子中,我们只能输入文件路径作为mapper类的输入,是否有一种方法来输入一个哈希映射到映射器,而不是一个文件?

谢谢Pranay Vyas以及

两件事:Map reduce对HDFS中的数据进行处理。因此,最好的选择是将地图数据保存为HDFS中的文件,然后转向map reduce。然而,由于您的数据来自HBase,为什么不使用它,读取数据并对其执行正则表达式操作。如果我错过了什么请告诉我

相关内容

  • 没有找到相关文章

最新更新