使用Python列出到可读表示

我有数据

[{'name': 'A', 'subsets': ['X_1', 'X_A', 'X_B'], 'cluster': 0},
{'name': 'B', 'subsets': ['B_1', 'B_A'], 'cluster': 2},
{'name': 'C', 'subsets': ['X_1', 'X_A', 'X_B'], 'cluster': 0},
{'name': 'D', 'subsets': ['D_1', 'D_2', 'D_3', 'D_4'], 'cluster': 1}]

我需要将其表示为

Cluster Number    Subset                         Name
0                 ['X_1', 'X_A', 'X_B']          A, C
1                 ['D_1', 'D_2', 'D_3', 'D_4']   D
2                 ['B_1', 'B_A']                 B

为了完整起见，我认为可以公平地提到，在您的情况下，您实际上可以创建一个没有json_normalize的数据帧，并应用groupby，如最初所示：

import pandas as pd
data = [{'name': 'A', 'subsets': ['X_1', 'X_A', 'X_B'], 'cluster': 0},
{'name': 'B', 'subsets': ['B_1', 'B_A'], 'cluster': 2},
{'name': 'C', 'subsets': ['X_1', 'X_A', 'X_B'], 'cluster': 0},
{'name': 'D', 'subsets': ['D_1', 'D_2', 'D_3', 'D_4'], 'cluster': 1}]
df = pd.DataFrame(data).groupby('cluster')
.agg({'subsets':'first','name':', '.join})
.reset_index()
.set_index('cluster')
.rename_axis('Cluster Number')

subsets  name
Cluster Number                            
0                    [X_1, X_A, X_B]  A, C
1               [D_1, D_2, D_3, D_4]     D
2                         [B_1, B_A]     B

您可以使用json_normalize+groupby"集群"；并将CCD_ 5应用于"0"；name"；以及CCD_ 6到"0"；子集"：

df = pd.json_normalize(data).groupby('cluster').agg({'subsets':'first','name':', '.join}).reset_index()

输出：

cluster               subsets  name
0        0       [X_1, X_A, X_B]  A, C
1        1  [D_1, D_2, D_3, D_4]     D
2        2            [B_1, B_A]     B

相关内容

最新更新

热门标签：