小贝子编程

Dask / pandas分类转换差异

本文关键字：转换分类 pandas Dask python csv pandas dask
更新时间 : 2023-08-25
英文 : dask / pandas categorical transformation differences

我正在管理大多数分类数据的大于内存的csv文件。最初，我习惯于创建一个大的csv文件，然后通过Pandas read_csv读取它，转换为分类并保存到hdf5。一旦进入分类格式，它就很适合内存。

文件正在增长，我转移到Dask。同样的过程。

然而，在空字段中，Pandas似乎使用了np。而楠类则不包括在猫中。类别清单。

使用Dask，空值用NaN填充，它被作为一个单独的类别包含，并保存到HDF中，我得到未来兼容性警告。

这是一个错误还是我错过了任何步骤?熊猫和任务的行为似乎有所不同。

感谢

这在dask ver 0.11.1中解决了

见https://github.com/dask/dask/pull/1578

最新更新

Prometheus导出器的正则表达式模式
Lua代码构建具有重复功能的堡垒之夜问题
JsonPath - Restrict To Research to One level
将列表的列表转换为映射列表
CVXPY二次规划- ArpackNoConvergence error and AssertionError
Xamarin Binding表达式中的格式文本
我需要调用两个api在Reactjs
库未加载:/opt/homebrew/opt/fmt/lib/libfmt.9.dylib
(NestJS, TypeORM) Javascript承诺:在此之前调用Finally块
Kusto -帮助编写KQL Pivot
Python tkinter滚动条:是否可以通过单击arrow1或arrow2来设置要移动的像素数?
避免在Rails#where中绑定变量
复制、修改和发送请求POST Fiddler
调用一个获取并返回字符串的用户方法，就像在c#中调用.net中的大多数字符串类方法一样
Configure ForwardHeadersMiddleware from appsettings?
count(1)和postgres中不同的行为
如何为Vue中动态生成的一个元素设置不同的样式
计算SQL Oracle中的百分比
如何打开没有Adobe动画的FLA文件?
一个Android模块如何知道另一个模块，而不声明它作为依赖?
Selenium日志隐藏在python中
实现客户端流到服务器Python代码失败
DllNotFoundException: agoraSdkCWrapper with Agora in Unity o
Rust narray:按列顺序遍历数组
如何加载存储在同一DAT文件中的多个python对象?
代理跨域请求与angular——proxy.config
属性错误："函数"对象没有属性"args"
OpenGL/glm显示黑屏
我收到此警告标志数组索引 4001 已超过数组的末尾(包含 4001 个元素)
Spring Content 1.2.5 JPA(Postgres) .docx文件突变为zip归档

Dask / pandas分类转换差异

相关内容

最新更新

热门标签：