将数据帧分割成间隔用于统计分析



我在一个练习中迷失了方向,我需要在一些日期时间点之间为每个会话聚合数据帧的不同特征,以便最终数据具有以下格式:

          {'Sessions': [{'SessionId':'<Int>', 'MaxNote':'<Int>', 
            'groups': [{'groupId':'Int', 
        'Students':[{'studentId':<Int>,   'date':'datetime', 'MaxEnglishNote':'<Int>',
      'Math':'<Int>', 'Philosophy':'<Int>'}, 
            {'studentId':<Int>, 'date':'datetime', 'MaxEnglishNote':'<Int>', 
    'Math':'<Int>', 'Philosophy':'<Int>'}]},
            {'groupId':'Int', 'Students':
            [{'studentId':<Int>, 'date':'datetime', 'MaxEnglishNote':'<Int>',
 'Math':'<Int>', 'Philosophy':'<Int>'},
             {'studentId':<Int>, 'date':'datetime','MaxEnglishNote':'<Int>',
 'Math':'<Int>', 'Philosophy':'<Int>'}]}]}

我所做的是创建一个类似json的对象来存储这些会话,但是接下来的转换和聚合具有唯一ID的值似乎很困难。请注意,与唯一的studententid关联的所有值都与该studententid同时发生所以我问你的建议:我应该以其他形式存储会话间隔,更适合迭代行,聚合等,或者有解决方案迭代在json类对象的嵌套列表?我想要实现的最终结果是用于不同统计和ml任务的平面字典

所以类似json的对象是这样的:

 [[{'date':'2013-10-09 09:00:00', 'value':'545747', 'field':'GroupeID'},
     {'date':'2013-10-09 09:00:00',  'value':'66463', 'field': 'StudentID'},
     {'date':'2013-10-09 09:00:00' , 'value':'197290' ,'field': 'Philosophy'},
    {'date':'2013-10-09 09:90:00','value':'470186' , 'field':'EnglishBegin'},
    {'date':'2013-10-09 09:00:00' , 'value':'470186' , 'field': 'EnglishEnd'},
     {'date':'2013-10-09 09:00:00' , 'value':'470186', 'field': 'EnglishMiddle'},
     {'date':'2013-10-09 09:00:00' , 'value':'181314' , 'field': 'Math'},
    {'date':'2013-10-09 09:35:00',  'value':'969427' ,'field': 'StudentID'},
    {'date':'2013-10-09 09:35:00' , 'value':'65645' , 'field':'EnglishEnd'},
     {'date':'2013-10-09 09:35:00' , 'value':'45433' , 'field':'EnglishMiddle'},
       {'date':'2013-10-09 09:35:00' , 'value':'181314' ,'field': 'Math'}
   {'date':'2013-10-09 09:35:00' , 'value':'003698' , 'field':'Philosphie'}],
   [{...},
         ......

,我从具有列的数据帧中得到;日期、字段、值,代码如下:

def create_interval():
    intervales=[]
    for index, row in bounds.iterrows():
        s = row['date_start']
        e = row['date_end']
        mask = (df['date'] > s) & (df['date'] < e)
        df_interval=df.loc[mask]
        intervales.append([{k:df_interval.values[i][v] for v,k in  enumerate(df_interval.columns)} for i in range(len(df_interval))])
    return intervales

因此,如果您知道如何存储df_interval以获得最佳解析和分析,它可以极大地帮助我!

您有关系数据,并且希望执行聚合。如何使用具有适当模型的关系数据库将所有内容链接在一起并计算聚合?

在StackExchange上为他们找到了这个问题和答案https://softwareengineering.stackexchange.com/questions/235707/using-a-relational-database-vs-json-objects-for-event-activity-data

我意识到,对于我所拥有的数据类型,使用pandas而不是json-objects留在数据框架上可能是最好的解决方案

最新更新