Azure ML无法从镶木地板文件中读取表格数据集,许多镶木地板文档都是如此。
创建数据集
from azureml.data.datapath import DataPath
datastore_path = [DataPath(datastore, 'churn')]
tabular_dataset = Dataset.Tabular.from_parquet_files(path=datastore_path)
添加扩展名:*.parquet:
from azureml.data.datapath import DataPath
datastore_path = [DataPath(datastore, 'churn/*.parquet')]
tabular_dataset = Dataset.Tabular.from_parquet_files(path=datastore_path)
不同时将所有数据读取到内存中的其他方法是使用TabularData集上的skip()
和take()
一次只请求部分源数据。或者将Parquet文件装载为FileDataset,然后为训练脚本中的文件子集构造单独的TabularData集。
这里有一个示例笔记本供您参考:https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/parallel-run/tabular-dataset-inference-iris.ipynb