在我的rails应用程序中,我需要上传一些doc/xls文件并解析其结构并获取信息。如何以 xml 格式或其他任何我可以读取和解析的内容从 *.doc 或 *.xls 获取数据?
您可以使用 Roo gem 解析不同类型的电子表格。它支持:
- 开放办公
- 胜过
- 谷歌电子表格
- 卓越
- 自由办公室
- .CSV
根据我的经验,它在解析.xls文件时存在一些问题,但是解析.xlsx文件很好。
至于.doc文件,您可以尝试使用 msworddoc-extractor gem 或尝试此处提出的解决方案之一。
更新:使用 *.docx 文件 - docx 和 docx-html
你见过野古吉里的宝石吗? http://nokogiri.org/
对于 xml 解析非常有用
电子表格 gem 非常适合 excel 和 csv 文件。https://github.com/zdavatz/spreadsheet