是否有任何时间分割功能,以一个大的.csv列包含多个字符串?



我有一个CSV文件,我需要分割特定列的字符串由char = '|||'所以当我使用迭代方式时,它可以工作但是耗时太长运行:

for i in range(dataset.shape[0]): #### 9000 Rows
col = dataset.iloc[i, 1].split('|||')

你有其他的时间解决方案吗?数据集示例

我需要拆分posts column

您可以尝试使用NumPy的loadtxt或genfromtxt函数加载CSV文件。NumPy将比for循环快得多。

例如,

import numpy as np
data = np.genfromtxt("myfile.csv", delimiter="|||")
# Example to access column number 27
data[:, 27]

编辑如果你想用特定的分隔符分割字符串数组,你可以尝试使用np.char.split.

例子
split_columns = np.char.split(dataset[:, 1], sep=',')

相关内容

最新更新