我使用以下代码从docx.或pptx获取字符串。(由于 textract 不能正确处理非 acsii 符号,因此我使用此处描述的解决方案(:
import textract as txt
text = txt.process("D:CorpusExposee.pptx")
text = text.decode("utf8")
然后我调用text
并得到如下所示的字符串:
'Syntaktische Besonderheiten nndes Maschinellen Verstehens nnder Deutschen Sprache nnin der Multilingualen PerspektivennMarvin TellernnForschungsfragennWnnelchenn nnEigenschaftennn nnnntder nnsyntaktischennn nnStrukturnn der nn
(缩短(
我想让字符串没有像n
和t
这样的标签,该怎么做?
提前对可能的重复/幼稚表示歉意
基于注释: 您看到的文本采用您从文件中提取的格式。 允许您包含段落。通过放置该文本(字符串(并打印它,您可以看到它制作段落。要摆脱它,您需要执行文本(变量(= text.replace("", "(,这将用任何"替换""。