大数据与Blaza和Pandas



我想知道这种方法对一个项目来说是否太过了。我有一个4gb的文件,显然我的电脑无法处理。使用Blaze将文件分割成更易于管理的文件大小,并使用熊猫打开并使用散景效果进行可视化,这是否有点小题大做?

我知道Pandas有一个"chunk"函数,但我想要拆分它们的原因是我需要分析与特定名称相关的特定行。

有没有别的方法可以让我的笔记本电脑不会崩溃,而且不需要设置Hadoop或任何AWS服务?

熊猫与pd.read_csv(..., chunksize=...)分块效果很好。

或者dask。dataframe模仿Pandas接口并为您处理分块。

最新更新