基本上我遇到了与这里讨论的相同的问题:http://blog.joshsoftware.com/2014/08/13/pdf-to-plain-text-processing-using-docsplit/但是他们在文档拆分中提出的解决方案不起作用。
Docsplit.extract_text(filepath, {:pdf_opts => ‘-layout’, output: ‘tmp_text_file’})
:p df_opts => '-layout' 选项不执行任何操作,我找不到有关此类选项的任何文档,因此我在输出文本文件中每行得到一个单词。
有谁知道如何获得准确的文本文件?
谢谢
如果你仔细阅读博客文章内部处理
:pdf_opts => ‘-layout’
尚未受文档拆分 GEM 的主分支支持。为此,您需要使用 https://github.com/documentcloud/docsplit/pull/114。所以使用
gem 'docsplit', git: 'git://github.com/narutosanjiv/docsplit.git'
希望这有帮助。如果您仍然遇到任何问题,请告诉我。