我有一个数据帧,迄今为止索引了 5 列。 数据由 0 和 1 组成。 我想找到每个系列中的第一个非零,并将其(并且仅它(乘以 100。
Date A B C D E
3/1/16 0 0 0 0 0
3/2/16 0 0 1 0 0
3/3/16 1 0 0 0 0
3/4/16 0 1 0 0 0
3/7/16 0 0 1 0 1
3/8/16 0 0 0 0 1
3/9/16 0 0 0 1 1
我尝试了以下代码,但它不起作用。
for col in df.columns:
idx = df[col].first_valid_index()
df[col][idx] = df[col][idx]*100.
首先对所有数字列使用 set_index
,然后创建带有 eq
(与 ==
相同(的布尔掩码,并按cumsum
链进行比较。
然后按掩码和多个最后reset_index
选择:
df = df.set_index('Date')
m = df.eq(1) & df.cumsum().eq(1)
df[m] *= 100
df = df.reset_index()
print (df)
Date A B C D E
0 3/1/16 0 0 0 0 0
1 3/2/16 0 0 100 0 0
2 3/3/16 100 0 0 0 0
3 3/4/16 0 100 0 0 0
4 3/7/16 0 0 1 0 100
5 3/8/16 0 0 0 0 1
6 3/9/16 0 0 0 100 1
详:
print (df.cumsum())
A B C D E
Date
3/1/16 0 0 0 0 0
3/2/16 0 0 1 0 0
3/3/16 1 0 1 0 0
3/4/16 1 1 1 0 0
3/7/16 1 1 2 0 1
3/8/16 1 1 2 0 2
3/9/16 1 1 2 1 3
print (df.cumsum().eq(1))
A B C D E
Date
3/1/16 False False False False False
3/2/16 False False True False False
3/3/16 True False True False False
3/4/16 True True True False False
3/7/16 True True False False True
3/8/16 True True False False False
3/9/16 True True False True False
print (df.eq(1))
A B C D E
Date
3/1/16 False False False False False
3/2/16 False False True False False
3/3/16 True False False False False
3/4/16 False True False False False
3/7/16 False False True False True
3/8/16 False False False False True
3/9/16 False False False True True
m = df.eq(1) & df.cumsum(axis=1).eq(1)
print (m)
A B C D E
Date
3/1/16 False False False False False
3/2/16 False False True False False
3/3/16 True False False False False
3/4/16 False True False False False
3/7/16 False False True False False
3/8/16 False False False False True
3/9/16 False False False True False
设置:
from pandas.compat import StringIO
temp=u"""Date A B C D E
3/1/16 0 0 0 0 0
3/2/16 0 0 1 0 0
3/3/16 1 0 0 0 0
3/4/16 0 1 0 0 0
3/7/16 0 0 1 0 1
3/8/16 0 0 0 0 1
3/9/16 0 0 0 1 1"""
df = pd.read_csv(StringIO(temp), sep="s+")
print (df)
Date A B C D E
0 3/1/16 0 0 0 0 0
1 3/2/16 0 0 1 0 0
2 3/3/16 1 0 0 0 0
3 3/4/16 0 1 0 0 0
4 3/7/16 0 0 1 0 1
5 3/8/16 0 0 0 0 1
6 3/9/16 0 0 0 1 1
这里有一种方法可以使用argmax
。
df = df.set_index('Date')
v = df.values
v[v.argmax(0), np.arange(df.shape[1] - 1)] *= 100
df[:] = v
df.reset_index()
Date A B C D E
0 3/1/16 0 0 0 0 0
1 3/2/16 0 0 100 0 0
2 3/3/16 100 0 0 0 0
3 3/4/16 0 100 0 0 0
4 3/7/16 0 0 100 0 1
5 3/8/16 0 0 0 0 100
6 3/9/16 0 0 0 100 1
从这里得到了一点帮助。
使用 for
循环,我们可以做
cols = df.columns[df.columns != 'Date']
for col in cols:
idx = df[col][df[col] != 0].index[0]
df[col][idx] = df[col][idx]*100