我试图将列text_info中的字符串仅在索引连续的情况下组合在一行中。我得到的数据与下表非常相似:
<表类>
指数
text_info
tbody><<tr>0.0 词1 南 南 3.0word2 0.0word3 1.0word4 2.0经常 4.0word6 表类>
试试这个。如果您的NAN
值是字符串而不是np.NaN
值,则使用pd.to_numeric()
。
(df.astype(str)
.groupby(pd.to_numeric(df['index'],errors='coerce').diff().ne(1).cumsum(),as_index=False)
.agg({'index':'first','text_info':', '.join}))
输出:
index text_info
0 0.0 word 1
1 nan nan
2 3.0 word2
3 0.0 word3, word4, word5
4 4.0 word6