Python:如何在多系列数据帧中找到第一个非零

我有一个数据帧，迄今为止索引了 5 列。数据由 0 和 1 组成。我想找到每个系列中的第一个非零，并将其(并且仅它(乘以 100。

Date A B C D E 3/1/16 0 0 0 0 0 3/2/16 0 0 1 0 0 3/3/16 1 0 0 0 0 3/4/16 0 1 0 0 0 3/7/16 0 0 1 0 1 3/8/16 0 0 0 0 1 3/9/16 0 0 0 1 1我尝试了以下代码，但它不起作用。

for col in df.columns:
    idx = df[col].first_valid_index()
    df[col][idx] = df[col][idx]*100.

首先对所有数字列使用 set_index，然后创建带有 eq(与 == 相同(的布尔掩码，并按cumsum链进行比较。

然后按掩码和多个最后reset_index选择：

df = df.set_index('Date')
m = df.eq(1) & df.cumsum().eq(1)
df[m] *= 100
df = df.reset_index()
print (df)
     Date    A    B    C    D    E
0  3/1/16    0    0    0    0    0
1  3/2/16    0    0  100    0    0
2  3/3/16  100    0    0    0    0
3  3/4/16    0  100    0    0    0
4  3/7/16    0    0    1    0  100
5  3/8/16    0    0    0    0    1
6  3/9/16    0    0    0  100    1

详：

print (df.cumsum())
        A  B  C  D  E
Date                 
3/1/16  0  0  0  0  0
3/2/16  0  0  1  0  0
3/3/16  1  0  1  0  0
3/4/16  1  1  1  0  0
3/7/16  1  1  2  0  1
3/8/16  1  1  2  0  2
3/9/16  1  1  2  1  3

print (df.cumsum().eq(1))
            A      B      C      D      E
Date                                     
3/1/16  False  False  False  False  False
3/2/16  False  False   True  False  False
3/3/16   True  False   True  False  False
3/4/16   True   True   True  False  False
3/7/16   True   True  False  False   True
3/8/16   True   True  False  False  False
3/9/16   True   True  False   True  False
print (df.eq(1))
            A      B      C      D      E
Date                                     
3/1/16  False  False  False  False  False
3/2/16  False  False   True  False  False
3/3/16   True  False  False  False  False
3/4/16  False   True  False  False  False
3/7/16  False  False   True  False   True
3/8/16  False  False  False  False   True
3/9/16  False  False  False   True   True

m = df.eq(1) & df.cumsum(axis=1).eq(1)
print (m)
            A      B      C      D      E
Date                                     
3/1/16  False  False  False  False  False
3/2/16  False  False   True  False  False
3/3/16   True  False  False  False  False
3/4/16  False   True  False  False  False
3/7/16  False  False   True  False  False
3/8/16  False  False  False  False   True
3/9/16  False  False  False   True  False

设置：

from pandas.compat import StringIO
temp=u"""Date   A   B   C   D   E
3/1/16  0   0   0   0   0
3/2/16  0   0   1   0   0
3/3/16  1   0   0   0   0
3/4/16  0   1   0   0   0
3/7/16  0   0   1   0   1
3/8/16  0   0   0   0   1
3/9/16  0   0   0   1   1"""
df = pd.read_csv(StringIO(temp), sep="s+")
print (df)
     Date  A  B  C  D  E
0  3/1/16  0  0  0  0  0
1  3/2/16  0  0  1  0  0
2  3/3/16  1  0  0  0  0
3  3/4/16  0  1  0  0  0
4  3/7/16  0  0  1  0  1
5  3/8/16  0  0  0  0  1
6  3/9/16  0  0  0  1  1

我知道

这里有一种方法可以使用argmax。

df = df.set_index('Date')
v = df.values
v[v.argmax(0), np.arange(df.shape[1] - 1)] *= 100  
df[:] = v
df.reset_index()

     Date    A    B    C    D    E
0  3/1/16    0    0    0    0    0
1  3/2/16    0    0  100    0    0
2  3/3/16  100    0    0    0    0
3  3/4/16    0  100    0    0    0
4  3/7/16    0    0  100    0    1
5  3/8/16    0    0    0    0  100
6  3/9/16    0    0    0  100    1

从这里得到了一点帮助。

使用 for 循环，我们可以做

cols = df.columns[df.columns != 'Date']
for col in cols:
    idx = df[col][df[col] != 0].index[0]
    df[col][idx] = df[col][idx]*100

相关内容

最新更新

热门标签：