我正在尝试将pdf转换为缩略图,并将数据保存到Solr中。如果可能,请帮助我们?
但为什么是MapReduce。你需要先使用tika提取pdf参考下面的链接
http://www.tutorialspoint.com/tika/tika_extracting_pdf.htm
获取元数据名称及其值并创建JSON。类似的东西
pdftitle:两种状态
作者:chetan bhagat
至
{"pdftitle":"两种状态","作者":"chetan bhagat"}