pyarrow数据集按文件名分区将文件名转换为字段/列名



有没有办法在数据集中使用文件名并将其作为列。

即目录是否有

file1.镶木地板file2.镶木地板file3.拼花地板

将其作为数据集加载后,是否可以有一个值为file1、file2和file3的列?

还是只适用于目录名?它似乎只适用于目录名,是吗?

Arrow 8.0.0将支持基于文件名的分区,该版本可能会在本月晚些时候或2022年5月发布。参见ARROW-14612。同样的道理也适用于具有文件名的列,请参见ARROW-15281。

要添加@li.davidm所说的内容,您现在可以执行以下操作:

dataset = ds.dataset(
"directory/",
format="parquet",
)
columns_to_include = dataset.schema.names + ["__filename"]
scanner = dataset.scanner(columns=columns_to_include)
your_table = scanner.to_table()

相关内容

  • 没有找到相关文章

最新更新