自定义Hadoop映射器



我必须开发的更大目的如下:-

a) 一个仪表板,除了其他功能外,用户还可以上传文档(.pdf、.txt、.doc)。所有这些文档都会放到一个特定的目录中。

b) 用户还可以查询用特定关键字标记的所有文档。

现在,我希望使用Hadoop来执行文档的标记。我的目标是通过使用一本精选单词词典来实现这一点。现在,.txt(或者可能还有.doc文件)将很容易处理。但是,根据我的理解,.pdf文件不能直接处理。我已经学会了如何使用Apache PDFBox。但是我不能集成这两个,即Hadoop和PDFBox。我想做的是,我的Map Reduce程序接收.txt/.pdf/.doc文件的语料库作为输入,在Map开始运行之前,执行pdf to txt的转换。

我该怎么做??我的想法正确吗??请帮忙。

我假设你有一百万或十亿的文档,你想对它们进行分类,无论是pdf, txt, doc and so on...,但你的实际问题是如何在Mapper中使用Apache PDFBox,这里是链接如何加载用户库hadoop:link

相关内容

  • 没有找到相关文章

最新更新