有没有办法将.ppt文件转换为.pptx文件。
目标:我需要从.ppt文件中提取表格文本(列名称为姓名,地址,联系电话,电子邮件等(。为此,我遵循了这种方法:
我.ppt文件转换为pdf,然后使用PDFminer从pdf中提取数据。从 pdf 中提取的文本不由任何分隔符分隔。因此,很难区分表中的名称和其他字段。
我正在研究的可能解决方案:
- 将.ppt文件转换为.pptx
- 解析.pptx文件的 xml 以获取格式化文本
我被困在将文件格式从.ppt转换为.pptx的第一步。 我找不到任何解决方案.ppt在 python 中将文件格式转换为.pptx形式。
我创建了这段代码,希望这对你有用:
import win32com.client
PptApp = win32com.client.Dispatch("Powerpoint.Application")
PptApp.Visible = True
PPtPresentation = PptApp.Presentations.Open(r'D:pptsample.ppt')
PPtPresentation.SaveAs(r'D:pptfinal.pptx', 24)
PPtPresentation.close()
PptApp.Quit()
对于MacOS Homebrew用户:安装Apache Tika (brew install tika
(
命令行界面的工作方式如下:
tika --text something.ppt > something.txt
并在python脚本中使用它:
import os
os.system("tika --text temp.ppt > temp.txt")
您将能够做到这一点,这是我迄今为止唯一的解决方案。
import os
os.system("libreoffice --headless --invisible --convert-to pptx *.ppt")