文档拆分 gem PDF 到文本

基本上我遇到了与这里讨论的相同的问题：http://blog.joshsoftware.com/2014/08/13/pdf-to-plain-text-processing-using-docsplit/但是他们在文档拆分中提出的解决方案不起作用。

 Docsplit.extract_text(filepath, {:pdf_opts => ‘-layout’, output: ‘tmp_text_file’})

:p df_opts => '-layout' 选项不执行任何操作，我找不到有关此类选项的任何文档，因此我在输出文本文件中每行得到一个单词。

有谁知道如何获得准确的文本文件？

谢谢

如果你仔细阅读博客文章内部处理

 :pdf_opts => ‘-layout’

尚未受文档拆分 GEM 的主分支支持。为此，您需要使用 https://github.com/documentcloud/docsplit/pull/114。所以使用

gem 'docsplit', git: 'git://github.com/narutosanjiv/docsplit.git'

希望这有帮助。如果您仍然遇到任何问题，请告诉我。

相关内容