完成大熊猫作业的速度要比使用大型数据集更快



我有一个由两个不同对象组成的CSV文件的大数据集:object_aobject_b。这些实体中的每个实体都有一个数字tick值。

Type,       Parent Name, Ticks
object_a,   4556421,     34
object_a,   4556421,     0
object_b,   4556421,     0
object_a,   3217863,     2
object_b,   3217863,     1
......

每个对象共享一个Parent Name值,因此在大多数情况下,每个对象中的一个对象都会共享Parent Name值,但并非总是如此。

我有两个目标:

  • 在父母名称下提取所有object_a,其中i)有> 1个object_a和;ii)object_a具有0个滴答,但另一个对象_a的tick> 0滴答。即只有零滴答的那个
  • 在父母名称下提取所有对象_b,其中i)> = 1 object_a and;ii)object_b有0个滴答

我的第一种方法是为这两个任务具有两个单独的功能,在块中读取CSV文件(通常大小为1.5GB),然后根据父名称对其进行分组后,将提取的行输出到另一个CSV文件中...

def objective_one(group_name, group_df):
   group_df = group_df[group_df['Type'] == 'object_a']
   if len(group_df) > 1:        
       zero_tick_object_a = group_df[group_df['Ticks'] == 0]        
       if len(zero_click_object_a) < len(group_df):        
           return zero_click_object_a        
       else:        
           return pd.DataFrame(columns=group_df.columns)
   else:        
       return pd.DataFrame(columns=group_df.columns)

def objective_two(group_name, group_df):
   object_a_in_group_df = group_df[group_df['Type'] == 'object_a']
   object_b_has_no_clicks_in_group_df = group_df[(group_df['Type'] == 'object_b') & (group_df['Ticks'] == 0)]
   if len(object_a_in_group_df) >= 1 and len(object_b_has_no_ticks_in_group_df) >= 1:
       has_ticks_objects = objects_in_group_df[object_a_in_group_df['Ticks'] >= 1]
       if len(has_ticks_object_a) > 0:        
           return object_B_has_no_ticks_in_group_df        
       else:        
           return pd.DataFrame(columns=group_df.columns)
   else:        
       return pd.DataFrame(columns=group_df.columns)

这是主要方法中对这些功能的调用:

for chunk in pd.read_csv(file, chunksize=500000):
   #objective one
   chunk_object_a = chunk.groupby(['Parent Name']).apply(lambda g: objective_one(g.name, g))
   ....
   ....
   #objective two
   chunk_object_b = chunk.groupby(['Parent Name']).apply(lambda g: objective_two(g.name, g))

#然后将应用方法输出的数据框架写入CSV文件

这种方法的问题是,尽管它确实为我提供了想要的输出,但在1GB及以上范围内的大文件中它的速度非常慢。另一个问题是,从CSV中读取它可能有效地将某些组切成两半(即,可以在一个块上拆分父母名称,而下一组可以使提取的对象数量不准确)

有什么方法可以优化它以使其更快,还可以解决我的块问题?

我对问题的拍摄:

  • 在父母名称下提取所有object_a,其中i)有> 1个object_a和;ii)object_a有0个滴答,但另一个object_a 有> 0滴答。即只有零滴答的那个
  • 在父母名称下提取所有对象_b,其中i)> = 1 object_a and;ii)object_b有0个滴答,但object_a具有> 0 tick

阅读本文时,我的第一印象是实际的"类型"并不重要,我们只希望每个组的> 0 tick> 0的现有object_a,并以0个滴答的速度提取所有元素,无论其类型如何。

考虑到这一点,我的方法是第一个创建一个新列来计算任何父母的 object_a tick数量。如果此数字为> 0,则意味着至少存在1 object_a,tick> 0。

In [63]: df.groupby(['Parent Name']).apply(lambda x: x[x['Type'] == 'object_a']['Ticks'].sum())
Out[63]: 
Parent Name
3217863     2
4556421    34
dtype: int64

现在将其合并到原始数据框架中...

In [64]: sumATicks = df.groupby(['Parent Name']).apply(lambda x: x[x['Type'] == 'object_a']['Ticks'].sum())
In [65]: merged = df.merge(pd.DataFrame(sumATicks).rename(columns={0: 'nbATicks'}), left_on='Parent Name', right_index=True)
In [66]: merged
Out[66]: 
       Type  Parent Name  Ticks  nbATicks
0  object_a      4556421     34        34
1  object_a      4556421      0        34
2  object_b      4556421      0        34
3  object_a      3217863      2         2
4  object_b      3217863      1         2

...并根据我上面说的标准提取所有有趣的行:

In [67]: merged[(merged['nbATicks'] > 0) & (merged['Ticks'] == 0)]
Out[67]: 
       Type  Parent Name  Ticks  nbATicks
1  object_a      4556421      0        34
2  object_b      4556421      0        34

希望我不会忘记任何边缘案...

关于块问题,为什么不只是将整个CSV文件加载到内存中?如果是 big,您可以在处理前尝试按额外名称进行排序,并在相关位置分开块。

这是我对问题的想法:

我认为第一个目标很容易,因为我们仅依赖于object_a行。我们可以使用转换将条件转换为布尔列表:

df_1 = df.loc[df['Type']=='object_a']
object_a = df_1.loc[(df_1.groupby('Parent_Name')['Ticks'].transform(min)==0)&
                    (df_1.groupby('Parent_Name')['Ticks'].transform(max)>0)&
                    (a['Ticks']==0)
                   ]
Out[1]: 
       Type  Parent_Name  Ticks
1  object_a      4556421      0

对于第二个目标,我创建了满足object_a要求的parent_names列表。在下一步中,isin仅选择相应的行。

a_condition = df.loc[df['Type']=='object_a'].groupby('Parent_Name').sum()
a_condition = a_condition[a_condition>0].index
object_b = df.loc[(df['Type']=='object_b')&
                  (df['Ticks']==0)&
                  (df['Parent_Name'].isin(a_condition))
                 ]
Out[2]: 
       Type  Parent_Name  Ticks
2  object_b      4556421      0
In [35]: df
Out[32]: 
       Type         Parent Name   Ticks
0  object_a             4556421      34
1  object_a             4556421       0
2  object_b             4556421       0
3  object_a             3217863       2
4  object_b             3217863       1

将数据汇总到tuple S

In [33]: df1 = df.groupby(['Parent Name',
                           'Type']).agg(lambda x: tuple(x)).unstack(1)
In [34]: df1
Out[34]: 
                      Ticks         
Type               object_a object_b
       Parent Name                  
3217863                (2,)     (1,)
4556421             (34, 0)     (0,)

为您的案件#1

构建布尔面膜
In [35]: mask1 = df1.apply(lambda x: (len(x[0])>1) & ((x[0]).count(0)==1), 
                           axis=1)
In [36]: mask1
Out[36]: 
       Parent Name
3217863    False
4556421     True
dtype: bool

为您的案例#2

构建布尔掩码
In [37]: mask2 = df1.apply(lambda x: ((len(x[0])>=1) & 
                                      (len(set(x[0]).difference([0]))>0) &
                                      (len(x[1])==1) & 
                                      (x[1][0]==0)),
                           axis=1)
In [38]: mask2
Out[38]: 
       Parent Name
3217863    False
4556421     True
dtype: bool

获取案例#1

的结果
In [39]: df1.loc[mask1, [('Ticks', 'object_a')]]
Out[39]: 
                      Ticks
Type               object_a
       Parent Name         
4556421             (34, 0)

获取案例#2

的结果
In [30]: df1.loc[mask2, [('Ticks', 'object_b')]]
Out[30]: 
                      Ticks
Type               object_b
       Parent Name         
4556421                (0,)

最新更新