在RubyonRails中抓取各种文档格式的文本



我是Rails的新手,但正在开发一个web应用程序,该应用程序需要从一个大型文本文件数据库中提取文本并以html显示文本。这些文件在.doc、.docx、.wps和.pages中,目前只是放在硬盘上。wps和.pages中的文件数量足够少,我可以手动将其转换为.doc,但问题仍然存在:如何获取.doc或.docx文件中的文本,以便将其保存到sqlite数据库中以备将来使用?

谢谢!

看看Yomu。它是一个充当Apache TIKA包装器的gem,它支持各种文档格式,其中包括:

  • Microsoft Office OLE 2和Office Open XML格式(.doc、.docx、.xls、.xlsx、.ppt、.pptx)
  • OpenOffice.org开放文档格式(.odt、.ods、.odp)
  • Apple iWorks格式
  • 富文本格式(.rtf)
  • 可移植文档格式(.pdf)

这是一个很长的迂回方法,但开放式办公室可以转换文件,有一些编程方法可以做到这一点:http://railstech.com/2010/08/convert-open-office-document-to-another-open-office-format/

这可能还不是最好的方法,但也许会给车轮带来一些润滑油。

最新更新