创建具有更好性能的 python 数据集列表列表



我有一个由 C/C++ 函数组成的数据集作为行。 我想获取每个函数,溢出它们,并创建一个单词列表(A(。 并将该列表 A 作为 Python 中的列表列表 B 列出

到目前为止,我一直在使用它,但我的数据集有128312项,而且速度很慢。

我们可以改善这一点吗? 如果是,我愿意接受建议

functionSourceDF = hdf.get('functionSource')
.
.
.
FSDarray = []
for i in range(0,size):
FSDarray.append(functionSourceDF[i].split(" "))
FSDarray = np.array(FSDarray)

谢谢。

您实际上可以使用numpy来解决此类问题。

import numpy as np
a = ["This is a test", "of numpy", "splitting words"]
a = np.array(a)
a = np.char.split(a)
print(a)

输出

[list(['This', 'is', 'a','test']( list(['of', 'numpy']( list(['splitting', 'words'](]

最新更新