解析 ruby 中的文档和 xls 文件



在我的rails应用程序中,我需要上传一些doc/xls文件并解析其结构并获取信息。如何以 xml 格式或其他任何我可以读取和解析的内容从 *.doc 或 *.xls 获取数据?

您可以使用 Roo gem 解析不同类型的电子表格。它支持:

  • 开放办公
  • 胜过
  • 谷歌电子表格
  • 卓越
  • 自由办公室
  • .CSV

根据我的经验,它在解析.xls文件时存在一些问题,但是解析.xlsx文件很好。

至于.doc文件,您可以尝试使用 msworddoc-extractor gem 或尝试此处提出的解决方案之一。

更新:使用 *.docx 文件 - docx 和 docx-html

你见过野古吉里的宝石吗? http://nokogiri.org/

对于 xml 解析非常有用

电子表格 gem 非常适合 excel 和 csv 文件。https://github.com/zdavatz/spreadsheet

最新更新