我可以使用pyarrow加载多个csv文件吗?



我知道这可以在R中完成,如下所示

ds <- open_dataset("nyc-taxi/csv/2019", format = "csv",
partitioning = "month")

但是在python中有办法做到吗?尝试了这些,但似乎不是一个选项

from pyarrow import csv
table = csv.read_csv("*.csv")
from pyarrow import csv
path = os.getcwd()
table = csv.read_csv(path)
table

有没有办法在python中实现呢?

是的,你也可以这样做pyarrow,类似于在R中,使用pyarrow.dataset子模块(pyarrow.csv子模块只暴露处理单个csv文件的功能)。

示例代码:

import pyarrow.dataset as ds
dataset = ds.dataset("nyc-taxi/csv/2019", format="csv", partitioning=["month"])
table = dataset.to_table()

然后在to_table()方法中可以指定行/列过滤器。

相关内容

  • 没有找到相关文章

最新更新