从目录中读取文件以创建 ZIP hadoop



我正在寻找Hadoop的例子,比字数的例子更复杂。

我想

做什么 它是读取 Hadoop 目录中的文件并获得一个 zip,所以我想收集 map 类中的所有文件并在 reduce 类中创建 zip 文件。

任何人都可以给我一个教程或示例的链接,而不是可以帮助我构建它?

不希望任何人为我做这件事,我要求一个链接,其中包含比wordaccount更好的示例。

如果你需要它,我几乎明白了:https://github.com/flopezluis/testing-hadoop

如果您的目标是规范化记录中的结构化数据,则从多个输入进入,然后对其进行处理。基于它,我认为你真的需要看看这篇过去帮助过我的文章。它包括如何使用Hadoop/MapReduce规范化数据,并提供基于Java的源代码,如下所示:

  • 步骤1:从原始数据中提取列值对。
  • 步骤 2:提取不在主 ID 文件中的列值对
  • 步骤 3:计算主文件中每列的最大 ID
  • 步骤 4:为不匹配的值计算新 ID
  • 步骤 5:将新 ID 与现有主 ID 合并
  • 步骤 6:将原始数据中的值替换为 ID

还有另一个关于在 JAVA 中使用新的可写和输入格式类读取和写入常规记录结构的方法的示例。看看这里。

相关内容

  • 没有找到相关文章

最新更新