我有一个熊猫数据帧:
import pandas as pd
data = [["a,a,a", "b,b", "c,c,c"], ["d,d","e","fd"],["g,h,i", "g", "fg,h,a"]]
df = pd.DataFrame(data, columns = ["ColA","ColB","ColC"])
df
ColA ColB ColC
0 a,a,a b,b c,c,c
1 d,d e fd
2 g,h,i g fg,h,a
我想将此表重新格式化为:
colA colB colC
0 a b c
1 d e fd
2 g,h,i g fg,h,a
因此,字符串通过逗号分隔值拆分每个条目后的唯一条目。
df.applymap(lambda elements: ','.join(set(elements.split(','))))
applymap()
将函数应用于数据帧的所有元素(单元格(。这里的lambda函数首先按,
分割数据,然后创建一组所有元素,并将它们与字符串连接回来.join()
方法。