小贝子编程

使用 textract 从 pptx. 和 docx 获取不带标签的文本

本文关键字：标签文本获取 docx textract pptx 使用 python tags powerpoint text-extraction
更新时间 : 2023-09-17
英文 : Using textract to get text from pptx. and docx. without tags

我使用以下代码从docx.或pptx获取字符串。(由于 textract 不能正确处理非 acsii 符号，因此我使用此处描述的解决方案(：

import textract as txt
text = txt.process("D:CorpusExposee.pptx")
text = text.decode("utf8")

然后我调用text并得到如下所示的字符串：

'Syntaktische Besonderheiten nndes Maschinellen Verstehens nnder Deutschen Sprache nnin der Multilingualen PerspektivennMarvin TellernnForschungsfragennWnnelchenn nnEigenschaftennn nnnntder nnsyntaktischennn nnStrukturnn der nn

(缩短(

我想让字符串没有像n和t这样的标签，该怎么做？

提前对可能的重复/幼稚表示歉意

基于注释：您看到的文本采用您从文件中提取的格式。允许您包含段落。通过放置该文本(字符串(并打印它，您可以看到它制作段落。要摆脱它，您需要执行文本(变量(= text.replace(""， "(，这将用任何"替换""。

使用 textract 从 pptx. 和 docx 获取不带标签的文本

相关内容

最新更新

热门标签：