从 docx 文件中删除字符



我有一个非常大的docx文件(700页(,它有一个日志格式

[15/09/2014, 15:30:21] Stijn: Nice

我想删除时间,让它看起来像这样

[15/09/2014] Stijn: Nice

我很确定这可以在 python 中完成,但只是还没有弄清楚确切的方法。 我应该使用这样的东西吗?

line.replace(char,'')

它是一个whatsapp日志文件,看起来像这样(有些文本使用2行(

[15/09/2014, 15:53:39] Dylan: Beste selfie ever 
[15/09/2014, 15:53:52] Sipke: Ja 
[15/09/2014, 15:54:05] ‎You changed this group's icon

:)将

不胜感激

如果您知道如何使用正则表达式,这可以很容易地完成。您希望:

1(逐行读取文件

2( 用空白文本替换时间戳。

这是我为你准备的一个示例python代码:

#!/usr/bin/python
import re
text = "[15/09/2014, 15:30:21] Stijn: Nice"
# Capture time stamp and substitute it with blank
new = re.sub(r'(, [0-9]{2}:[0-9]{2}:[0-9]{2})', "", text)    
print new

这将产生:

[15/09/2014] Stijn: Nice

如果您想摆弄/理解我在这里使用的正则表达式的用法,请点击此链接- https://regexr.com/406sc