如何在HDFS文件上执行自定义C 二进制



我有自定义的C 二进制文件,该二进制文件读取原始数据文件并写入派生的数据文件。文件的大小为100GB。此外,我想并行处理多个100GB文件,并生成派生元数据的实现视图。因此,地图还原范式似乎更可扩展。

我是Hadoop生态系统的新手。我已经使用Ambari在AWS上设置了Hadoop群集。我已经在每个数据节点上构建了自定义的C 二进制文件,并在HDFS上加载了原始数据文件。我有什么选择在HDFS文件上执行此二进制?

hadoop流是运行非Java应用程序的最简单方法。

有关更多详细信息,请参阅Hadoop流。

最新更新