我知道这可以在R中完成,如下所示
ds <- open_dataset("nyc-taxi/csv/2019", format = "csv",
partitioning = "month")
但是在python中有办法做到吗?尝试了这些,但似乎不是一个选项
from pyarrow import csv
table = csv.read_csv("*.csv")
from pyarrow import csv
path = os.getcwd()
table = csv.read_csv(path)
table
有没有办法在python中实现呢?
是的,你也可以这样做pyarrow,类似于在R中,使用pyarrow.dataset
子模块(pyarrow.csv
子模块只暴露处理单个csv文件的功能)。
示例代码:
import pyarrow.dataset as ds
dataset = ds.dataset("nyc-taxi/csv/2019", format="csv", partitioning=["month"])
table = dataset.to_table()
然后在to_table()
方法中可以指定行/列过滤器。