我们如何在hadoop中强制许多映射器读取一个特定的文件(相同的数据)



我想写一个程序,许多映射器读取一个1文件一个图和所有在这个图上进行的处理,这个文件大约有14kb如果我以正常方式运行,只会为该文件映射一个映射器我怎么能做到呢?致以最亲切的问候。

将文件放入HDFS中,在mapper函数中使用HDFS API读取文件并对其进行处理。您也可以尝试DistributedCache,而不是将文件放在HDFS中。

此场景也适用于必须对数据集进行N次模拟的情况。模拟因子将作为地图函数的输入,实际数据将在地图函数中读取。

相关内容

最新更新