自定义Hadoop映射器

我必须开发的更大目的如下：-

a）一个仪表板，除了其他功能外，用户还可以上传文档（.pdf、.txt、.doc）。所有这些文档都会放到一个特定的目录中。

b）用户还可以查询用特定关键字标记的所有文档。

现在，我希望使用Hadoop来执行文档的标记。我的目标是通过使用一本精选单词词典来实现这一点。现在，.txt（或者可能还有.doc文件）将很容易处理。但是，根据我的理解，.pdf文件不能直接处理。我已经学会了如何使用Apache PDFBox。但是我不能集成这两个，即Hadoop和PDFBox。我想做的是，我的Map Reduce程序接收.txt/.pdf/.doc文件的语料库作为输入，在Map开始运行之前，执行pdf to txt的转换。

我该怎么做？？我的想法正确吗？？请帮忙。

我假设你有一百万或十亿的文档，你想对它们进行分类，无论是pdf, txt, doc and so on...，但你的实际问题是如何在Mapper中使用Apache PDFBox，这里是链接如何加载用户库hadoop:link

相关内容

最新更新

热门标签：