我必须开发的更大目的如下:-
a) 一个仪表板,除了其他功能外,用户还可以上传文档(.pdf、.txt、.doc)。所有这些文档都会放到一个特定的目录中。
b) 用户还可以查询用特定关键字标记的所有文档。
现在,我希望使用Hadoop
来执行文档的标记。我的目标是通过使用一本精选单词词典来实现这一点。现在,.txt
(或者可能还有.doc
文件)将很容易处理。但是,根据我的理解,.pdf
文件不能直接处理。我已经学会了如何使用Apache PDFBox
。但是我不能集成这两个,即Hadoop和PDFBox。我想做的是,我的Map Reduce程序接收.txt/.pdf/.doc文件的语料库作为输入,在Map开始运行之前,执行pdf to txt
的转换。
我该怎么做??我的想法正确吗??请帮忙。
我假设你有一百万或十亿的文档,你想对它们进行分类,无论是pdf, txt, doc and so on...
,但你的实际问题是如何在Mapper
中使用Apache PDFBox
,这里是链接如何加载用户库hadoop
:link