拆分列中的值并创建新列是个小问题

我有一个调查数据，其中一列如下：

Evaluations_Col
E: 3, D: 3, C: 3, S: 3, E: 3, X, K: 3   
E: 1, D: 1, C: 1, S: 1, E: 1, X, K: 1
E: 2, D: 2, C: 2, S: 2, E: 2, X, K: 2 
E: 5, D: 5, C: 5, S: 5, E: 5, X, K: 5
E: 3, D: 1, C: 1, S: 1, E: 1, X, K: 1

注意：我需要忽略列中的X值。

我想提取每个评估，并将它们分别作为每种评估类型的列。最后，预期的列将如下：

E_col    D_col     C_Col   ...
3          3         3
1          1         1
2          2         2
5          5         5
3          1         1

我可以用逗号将它们分开，得到这样的列表，[E: 3, D: 3, C: 3, S: 3, E: 3, K: 3]如何为每个列创建单独的列并正确地分布相应的值？

我可以通过这个正常实现，但X值导致bc字典出现问题。。。我如何排除它？

df1 = pd.DataFrame([dict([y.split(':') for y in x.split(',')]) for x in test_col])
df1.head()

错误为

ValueError: dictionary update sequence element #9 has length 1; 2 is required

仅使用带有"："分隔符的列表理解和筛选行：

让我们把列表理解分解为几个部分：

在线循环：for x in test_col
通过'，'将行(用x表示(分离为列：for y in x.split(',')
仅当存在"："分隔符时才将列拆分为键值对：y.split(':') for y in x.split(',') ***only*** if ':' in y(这解决了所描述的问题(

代码：

import pandas as pd
import numpy as np
test_col = []
with open('data.csv', 'r') as f:
test_col = [l.strip() for l in f.readlines()]
df = pd.DataFrame([dict([y.split(':') for y in x.split(',') if ':' in y]) for x in test_col])
print(df.head())

输出：

E   D   C   S   E   K
0   3   3   3   3   3   3
1   1   1   1   1   1   1
2   2   2   2   2   2   2
3   5   5   5   5   5   5
4   3   1   1   1   1   1

一种方法是使用str.extractall:

s = df["Value"].str.extractall(r"([A-Z]):s(d)").reset_index().groupby("level_0")
print (pd.DataFrame(s[1].agg(list).tolist(), columns=s[0].get_group(0).tolist()))
E  D  C  S  E  K
0  3  3  3  3  3  3
1  1  1  1  1  1  1
2  2  2  2  2  2  2
3  5  5  5  5  5  5
4  3  1  1  1  1  1

使用str.split和stack

df1 = (
df["Evaluations_Col"]
.str.split(",", expand=True)
.stack()
.str.split(":", expand=True)
.set_index(0, append=True)
.dropna()
.unstack([1, 2])
.droplevel(1,1)
)

1                    
0   E   D   C   S   E   K
0   3   3   3   3   3   3
1   1   1   1   1   1   1
2   2   2   2   2   2   2
3   5   5   5   5   5   5
4   3   1   1   1   1   1

相关内容

最新更新

热门标签：