使用 textract 从 pptx. 和 docx 获取不带标签的文本



我使用以下代码从docx.或pptx获取字符串。(由于 textract 不能正确处理非 acsii 符号,因此我使用此处描述的解决方案(:

import textract as txt
text = txt.process("D:CorpusExposee.pptx")
text = text.decode("utf8")

然后我调用text并得到如下所示的字符串:

'Syntaktische Besonderheiten nndes Maschinellen Verstehens nnder Deutschen Sprache nnin der Multilingualen PerspektivennMarvin TellernnForschungsfragennWnnelchenn nnEigenschaftennn nnnntder nnsyntaktischennn nnStrukturnn der nn

(缩短(

我想让字符串没有像nt这样的标签,该怎么做?

提前对可能的重复/幼稚表示歉意

基于注释: 您看到的文本采用您从文件中提取的格式。 允许您包含段落。通过放置该文本(字符串(并打印它,您可以看到它制作段落。要摆脱它,您需要执行文本(变量(= text.replace("", "(,这将用任何"替换""。

相关内容

  • 没有找到相关文章

最新更新