在 Python 中读取大字符串并拆分每个单词需要太多时间



我正在阅读一个有注释的数据帧列。使用以下代码读取数据需要很长时间。有没有办法使它更快?

for val in df.Description:
val = str(val)
tokens = val.split()  
for i in range(len(tokens)):
tokens[i] = tokens[i].lower()  
for words in tokens:
comment = comment + words + ''

DF.描述是一列注释(基本上是电子邮件文本(

更新:假设 df。描述是您的列,这可能会有所帮助:

arr_string = df.Description.astype(str).values.tolist()
for val in arr_string:
for words in val:
comment = ''.join([comment, words])

看看这个。

最新更新