小贝子编程

pyarrow数据集按文件名分区将文件名转换为字段/列名

本文关键字：文件名字段列名转换数据集分区 pyarrow parquet pyarrow
更新时间 : 2023-09-21
英文 : pyarrow dataset partitioning by filenames converting filename to field/column name

有没有办法在数据集中使用文件名并将其作为列。

即目录是否有

file1.镶木地板file2.镶木地板file3.拼花地板

将其作为数据集加载后，是否可以有一个值为file1、file2和file3的列？

还是只适用于目录名？它似乎只适用于目录名，是吗？

Arrow 8.0.0将支持基于文件名的分区，该版本可能会在本月晚些时候或2022年5月发布。参见ARROW-14612。同样的道理也适用于具有文件名的列，请参见ARROW-15281。

要添加@li.davidm所说的内容，您现在可以执行以下操作：

dataset = ds.dataset(
"directory/",
format="parquet",
)
columns_to_include = dataset.schema.names + ["__filename"]
scanner = dataset.scanner(columns=columns_to_include)
your_table = scanner.to_table()

pyarrow数据集按文件名分区将文件名转换为字段/列名

相关内容

最新更新

热门标签：