你好,下面我有一个用NLP预处理的代码:
text = '''Gelaran perdana MotoGP Mandalika GP Indonesia, berhasil dimenangkan oleh pebalap Red Bull KTM, Miguel Oliveira, Minggu (20/3/2022).
Posisi kedua ditempati oleh pebalap Yamaha Fabio Quartararo dan podium ketiga dimenangkan oleh pebalap Pramac Ducati, Johann Zarco.'''
import re
import time
text = text.replace('n','')
sentence = re.split('. |.',text)
sentence
,结果如下:
['Gelaran perdana MotoGP Mandalika GP Indonesia, berhasil dimenangkan oleh pebalap Red Bull KTM, Miguel Oliveira, Minggu (20/3/2022)',
'Posisi kedua ditempati oleh pebalap Yamaha Fabio Quartararo dan podium ketiga dimenangkan oleh pebalap Pramac Ducati, Johann Zarco',
'']
似乎在末尾添加了一个新值"。我该如何解决这个问题?我的意思是它会自然地创造一个新的价值吗?怎么才能不这么做呢?
感谢答案是添加strip和split。
sentence = text.strip(".").split(".")