示例pandas dataframe:
ID名称注释1评论2 num1 dan嗨,你好11丹你的朋友23乔恩是的,不32乔恩狗猫.53乔恩是.1
我正在尝试创建一个按ID分组的数据框架,并命名condenation comment1和comment2,也总结num。
这就是我要寻找的:
ID名称注释1评论2 num1丹嗨,你你好朋友33乔恩是的,不是3.12乔恩狗猫.5
我尝试使用以下方式:
input_df = input_df.groupby(['ID', 'NAME', 'COMMENT1', 'COMMENT2']).sum().reset_index()
但是它不起作用。
如果我使用此:
input_df = input_df.groupby(['ID']).sum().reset_index()
它总结了NUM列,但列出了所有其他列。
让我们进入一行
df.groupby(['ID','Name'],as_index=False).agg(lambda x : x.sum() if x.dtype=='float64' else ' '.join(x))
Out[1510]:
ID Name COMMENT1 COMMENT2 NUM
0 1 dan hi you hello friend 3.0
1 2 jon dog cat 0.5
2 3 jon yeah yes nope no 3.1
您还可以告诉.agg()
每列的聚合功能以及字符串列使用,请通过' '.join
(请注意没有括号,因为您不想调用.join
而是将其作为参数本身):
df.groupby(['ID','Name'],as_index=False).agg({'COMMENT1': ' '.join, 'COMMENT2': ' '.join, 'NUM': 'sum'})
将您的数据示例转换为CSV文件,我们可以执行以下操作:
import pandas as pd
def grouping_Cols_by_Cols(DF, grouping_Columns, num_Columns):
# numerical columns can mess us up ...
column_Names = DF.columns.tolist()
# so, convert all columns' values to strings
for column_Name in column_Names:
DF[column_Name] = DF[column_Name].map(str) + ' '
DF = DF.groupby(by=grouping_Columns).sum()
# NOW, convert the numerical string columns to an expression ...
for num_Col in num_Columns:
column_Names = DF.columns.tolist()
num_Col_i = column_Names.index(num_Col)
for i in range(len(DF)):
String = DF[num_Col].iloc[i]
value = eval(String.rstrip(' ').replace(' ','+'))
DF.iat[i,num_Col_i] = value
return DF
###############################################################
### Operations Section
###############################################################
df = pd.read_csv("UnCombinedData.csv")
grouping_Columns = ['ID','Name']
num_Columns = ['NUM']
df = grouping_Cols_by_Cols(df,grouping_Columns, num_Columns)
print df
有了更多的工作,定义的函数可以自动检测,哪些列中有数字并将其添加到数值列列表中。
我认为这与本文中遇到的问题和挑战相似,但不确切。