我在以下位置阅读了与Hadoop的HIPI图像处理API相关的论文:http://cs.ucsb.edu/~cmsweeney/papers/bundrad_thesis.pdf
在解释协方差示例时,该论文说:"因为HIPI为每个地图任务分配一个图像,所以随机采样100个补丁的图像并执行此计算很简单"。
但论文中显示的第一个图描绘了一个将多个图像输入到一个地图任务中的架构!
令人惊讶的是,他们写道,一个图像由一个地图任务处理,因为这会产生太多的地图任务,因为他们也在解决小文件问题。
如果这是真的,那么使用MultithreadMapper的序列文件是一个更好的选择,我是对还是错?
提前谢谢。。
虽然我无法解释作者在论文中所说的内容,但通过查看HIPI的API,我只能看到一个InputFormat:
- ImageBundleInputFormat
这适用于ImageBundle,听起来就是一个文件中的图像集合(束)。
我想作者可能想说的是:
因为HIPI为每个映射函数分配一个图像,所以随机采样100个补丁的图像并执行此计算很简单
查阅相关协方差示例的代码可以支持这一理论。