有没有办法在数据集中使用文件名并将其作为列。
即目录是否有
file1.镶木地板file2.镶木地板file3.拼花地板
将其作为数据集加载后,是否可以有一个值为file1、file2和file3的列?
还是只适用于目录名?它似乎只适用于目录名,是吗?
Arrow 8.0.0将支持基于文件名的分区,该版本可能会在本月晚些时候或2022年5月发布。参见ARROW-14612。同样的道理也适用于具有文件名的列,请参见ARROW-15281。
要添加@li.davidm所说的内容,您现在可以执行以下操作:
dataset = ds.dataset(
"directory/",
format="parquet",
)
columns_to_include = dataset.schema.names + ["__filename"]
scanner = dataset.scanner(columns=columns_to_include)
your_table = scanner.to_table()