PY 熊猫行迭代在重复的行 1-1 1-N 中添加新数据



我不知道如何解释。但是让我们来看一个例子:
我有这个词典

dictData = {'movie_id':[11,12,13],'title':['filmA','filmB','filmC']}
dictFilm = {'filmA': ['pathA1\ImageA1.jpg','pathA2\ImageA2.jpg'],
'filmB': ['pathB1\ImageB1.jpg','pathB2\ImageB2.jpg'],
'filmC':['pathC1\ImageC1.png','']}

从这些中,我将制作一个新数据

dfData = pd.DataFrame.from_dict(dictData)
dfFilm = pd.DataFrame.from_dict(dictFilm)
to_image_df = pd.DataFrame.from_dict({})
for i, row in dfFilm.iterrows():
to_image_df.at[i,'movie_id'] = int(dfData.at[i,'movie_id'])
to_image_df.at[i,'name']     = dfData.at[i,'title']
to_image_df.at[i,'path']     = dfFilm.at[i,'filmB']
print(to_image_df.head())

这给了我这个结果:

movie_id   name                path
0      11.0  filmA       pathB1B1.jpg
1      12.0  filmB  pathB2ImageB2.jpg

但我想要这样的结果:

movie_id   name                 path
0      11.0  filmA  pathA1\ImageA1.jpg
1      11.0  filmA  pathA2\ImageA2.jpg
2      12.0  filmB   pathB2ImageB1.jpg
3      12.0  filmB   pathB2ImageB2.jpg
4      13.0  filmC   pathC1ImageC1.png

map并展平/展开。

df = pd.DataFrame(dictData)
v = df.title.map(dictFilm) 
df = (pd.DataFrame(df.values.repeat(v.str.len(), axis=0), columns=df.columns)
.assign(path=list(chain.from_iterable(v)))
.replace('', np.nan)
.dropna(subset=['path']))
df
movie_id  title                path
0        11  filmA  pathA1ImageA1.jpg
1        11  filmA  pathA2ImageA2.jpg
2        12  filmB  pathB1ImageB1.jpg
3        12  filmB  pathB2ImageB2.jpg
4        13  filmC  pathC1ImageC1.png

meltmerge一起使用

dfFilm = dfFilm.melt().loc[lambda x : x['value']!='']
df = dfData.merge(dfFilm,left_on='title',right_on='variable',how='right').drop('variable',1)
df
Out[277]: 
movie_id  title               value
0        11  filmA  pathA1ImageA1.jpg
1        11  filmA  pathA2ImageA2.jpg
2        12  filmB  pathB1ImageB1.jpg
3        12  filmB  pathB2ImageB2.jpg
4        13  filmC  pathC1ImageC1.png

最新更新