熊猫 - 包含元素的多索引列,但忽略缺失值



我有一个多索引pandas dataframe:

lst = [(1, 2), (3, 4), (5, 6), (7, 8), (9, 10), (11, 12), (13, 14), (21, 22)]
df = pd.DataFrame(lst, pd.MultiIndex.from_product([['A', 'B'], ['1','2', '3', '4']])).loc[:('B', '2')]
df["tuple"] = list(zip(df[0], df[1]))
#df:
      0   1     tuple
A 1   1   2    (1, 2)
  2   3   4    (3, 4)
  3   5   6    (5, 6)
  4   7   8    (7, 8)
B 1   9  10   (9, 10)
  2  11  12  (11, 12)

我想将包含元组的列转换为元组列表。我的方法是:

#dataframe to append list of tuples
new_df = pd.DataFrame([1, 2], index = list("AB") )
#voila a list of tuples
new_df["list_of_tuples"] = df["tuple"].unstack(level = -1).values.tolist()
#new_df:
   0                 list_of_tuples
A  1     [(1, 2), (3, 4), (5, 6), (7, 8)]
B  2  [(9, 10), (11, 12), None, None]

这起作用,但仅适用于每个条目的多个索引数据框。如果所有条目都没有相同的长度,则缺少列会产生列表中的None值。在创建列表之前,我尝试删除Numpy NaN值失败。是否有一种方法可以防止None在最终列表中出现?

这是您需要的吗?

df.groupby(level=[0]).tuple.apply(list)
Out[306]: 
A    [(1, 2), (3, 4), (5, 6), (7, 8)]
B                 [(9, 10), (11, 12)]
Name: tuple, dtype: object

最新更新