一个Mapper类Hadoop中的多个输入文件



因此,我正在尝试在MapReduce Paradigm中编写FP-Tree算法,为了创建一个频繁项目集列表,我有以下问题:

输入:

File1.txt(包含所有交易)

123 452 221 12 
45 76 987 
77 76 123 354 
[Each Line contains items Bought in one Transaction]

File2.txt(包含按降序购买的项目)

12    123
6     221
5     77
4     354
[Count] [Item Id]

输出:

output.txt
123 221  
123 77 354 
[2nd transaction is eliminated]

根据计数的项目被计入(降序),其他项目被删除

是否可以将File1.txt和File2.txt合并到一个映射程序类中?因为这将解决我的问题

或者有没有其他方法可以执行此操作?

如有任何帮助,我们将不胜感激

查看mapreduce分布式缓存示例可能有助于完成

http://myhadoopexamples.com/2014/04/16/hadoop-map-side-join-with-distributed-cache-example/

阅读安装方法中的文件。上面的链接将提供很好的指导。

Hadoop Map Reduce读取文本文件

您可以在一个MR程序中读取多个文件。但是每个文件应该分别有一个映射器类。由于两个输入文件不同,因此这两个文件的读取逻辑也不同。您可以有两个映射器,每个映射器一个,其输出应该具有相同的KEY并传递给reducer。

您可以参考分布式缓存。

相关内容

  • 没有找到相关文章

最新更新