数据帧问题的数据包

我有键值格式的数据。我已经创建了一个dask包，然后从该包创建了数据帧。但当我尝试在数据帧上进行分组时，它会抛出错误。但对于相同的数据，当我直接创建pandas数据帧或dask数据帧时，它工作得很好。

我想我错过了什么。救命

我在下面的代码中重新创建了这个问题。

import pandas as pd
import dask.dataframe as dd
import dask.bag as db
df = pd.DataFrame({'A': [1, 1, 2, None],  'B': [1, 2, 3, 4]})
df.groupby(df.A).count()  # pandas, working 
ddf = dd.from_pandas(df, 2)
ddf.groupby(ddf.A).count().compute() # dask dataframe, working 
bg = db.from_sequence([{'A': 1,'B':1}, {'A': 1,'B': 2}, {'A': 2,'B':3 }, {'A': None, 'B': 4}])
ddf_2 = bg.to_dataframe()
ddf_2 = ddf_2.fillna(0)
ddf_2.groupby(ddf_2.A).count().compute()  # throws error 
..........
TypeError: int() argument must be a string, a bytes-like object or a number, not 'NoneType'

注意：在实际场景中，我在avro文件中有数据。所以我不能跳过数据帧部分的数据包

问题是dask认为您拥有的数据类型并不是您实际拥有的数据。当您在不指定输出数据类型的情况下Bag.to_dataframe时，dask假设第一个分区是有代表性的(加载整个数据集进行检查是昂贵的(，并从中推断出数据帧数据类型，从而将'A'推断为整数列。

In [1]: import dask.bag as db
In [2]: bg = db.from_sequence([{'A': 1,'B':1}, {'A': 1,'B': 2}, {'A': 2,'B':3 }, {'A': None, 'B': 4}])
In [3]: ddf = bg.to_dataframe()
In [4]: ddf.dtypes
Out[4]:
A    int64
B    int64
dtype: object

事实上，尽管'A'稍后有一个缺失的值，因此不能是整数列(pandas integer系列目前没有缺失的值表示，但必须使用float(。为了在这里保持健壮，您应该使用meta关键字指定预期数据帧的数据类型：

In [5]: ddf = bg.to_dataframe(meta={'A': float, 'B': int})  # specify 'A' has missing values and must be float
In [6]: ddf2 = ddf.fillna(0).astype({'A': int})  # fill missing with 0, and convert A back to int
In [7]: ddf2.groupby(ddf2.A).count().compute()
Out[7]:
B
A
1  2
2  1
0  1

有关详细信息，请参阅Bag.to_dataframe的文档字符串。

相关内容

最新更新

热门标签：