我有一个大的。txt文件(大约600 mb),我试图分割所有下划线和它的前导文本
xxxxxxxx_NUM 0.20825405 -0.0756654 0.026837101
have_VERB -0.24344832 0.2747727 -0.024150277
two_NUM -0.038767103 0.20430847 0.10068103
我试过使用拆分方法和正则表达式模式,但没有成功。作为一个例子,这个文本的输出应该是:
xxxxxxxx 0.20825405 -0.0756654 0.026837101
have -0.24344832 0.2747727 -0.024150277
two -0.038767103 0.20430847 0.10068103
使用fileinput
模块替换正则表达式:
import fileinput
import re
with fileinput.input(files='your_filename.txt',
encoding='utf-8', inplace=True) as f:
for line in f:
line = re.sub(r'_[^_s]+', '', line, count=1)
print(line.strip())