小贝子编程

我可以使用pyarrow加载多个csv文件吗?

我知道这可以在R中完成，如下所示

ds <- open_dataset("nyc-taxi/csv/2019", format = "csv",
partitioning = "month")

但是在python中有办法做到吗?尝试了这些，但似乎不是一个选项

from pyarrow import csv
table = csv.read_csv("*.csv")

from pyarrow import csv
path = os.getcwd()
table = csv.read_csv(path)
table

有没有办法在python中实现呢?

是的，你也可以这样做pyarrow，类似于在R中，使用pyarrow.dataset子模块(pyarrow.csv子模块只暴露处理单个csv文件的功能)。

示例代码:

import pyarrow.dataset as ds
dataset = ds.dataset("nyc-taxi/csv/2019", format="csv", partitioning=["month"])
table = dataset.to_table()

然后在to_table()方法中可以指定行/列过滤器。

相关内容