从包含文本和图像的docx和pptx中提取文本内容 - linux



docx to txt:

我尝试了以下代码从docx中提取文本。当 docx 有图像时,它不起作用。

unzip -p some.docx word/document.xml | sed -e 's/<[^>]{1,}>//g; s/[^[:print:]]{1,}//g'

对于 pptx 到 txt,我找到了一个 Perl 脚本来提取 txt。当 pptx 有图像时它不起作用 - 相同。

我想要提取的txt内容以启用文档之间的搜索选项。因此,跳过图像并将docx文本内容转换为txt的命令/脚本甚至会有所帮助!

SO问题 如何从.doc和.docx文件中提取纯文本? 提供了其他选项。
libreoffice答案几乎有效,可能在 2012 年确实有效。
现在(LibreOffice 5.1(尝试:

libreoffice --convert-to txt text some.docx

libreoffice --headless --convert-to txt text some.docx

确保您没有打开libreoffice

相关内容

  • 没有找到相关文章

最新更新