我想知道是否有人知道根据Dask中列的值写出一组文件的正确方法。换句话说,如果我想根据一列中的值对一列进行分组并将它们写进csv。我一直在尝试将分组应用范例与Dask一起使用,但问题是它不返回任务。dataframe对象,因此我应用它的函数使用Pandas API。
有没有更好的方法来处理我正在尝试做的事情?一个可扩展的解决方案将非常受欢迎,因为我正在处理的一些数据非常大。
谢谢!
如果您要保存拼花,那么partition_on
kwarg将是有用的。如果您要保存为csv,那么可以执行类似的操作(粗略的伪代码):
def save_partition(df, partition_info=None):
for group_label, group_df in df.groupby('some_col'):
csv_name = f"{group_label}_partition_{partition_info['number']}.csv"
group_df.to_csv(csv_name)
delayed_save = ddf.map_partitions(save_partition)
delayed_save
可以在方便的时候计算。