AttributeError:无法从kedro.extras.datasets.pandas加载对象ParquetDat



我刚开始使用Kedro,在我的conda环境中安装Kedro后,在尝试列出我的目录时遇到以下错误:

执行命令:kedro catalog list

错误:

kedro.io.core.DataSetError:分析配置时发生异常对于数据集df_medinfo_raw:无法加载对象ParquetDataSet来自CCD_ 4。请参阅上的文档如何安装的相关依赖项kedro.extras.datasets.pandas.ParketDataSet:

我通过conda forge:conda install -c conda-forge "kedro[pandas]"安装了kedro。据我所知,这种安装kedro的方式也安装了panda依赖项。

我试图阅读kedro文档中的依赖项,但并不清楚如何解决这类问题。

我的kedro版本是0.17.6

Kedro使用Pandas来加载ParquetDataSet对象,而Pandas需要额外的依赖项来实现这一点(请参阅"安装:其他数据源"(。也就是说,除了Panda之外,还必须安装fastparquetpyarrow

对于康达,您可以选择:

## use pyarrow for parquet
conda install -c conda-forge kedro pandas pyarrow

## or use fastparquet for parquet
conda install -c conda-forge kedro pandas fastparquet

请注意,问题kedro[pandas]中使用的语法对Conda来说毫无意义(即,它最终解析为仅kedro(。Conda包规范使用名为MatchSpec的自定义语法,其中[...]内部的任何内容都将被解析为[key1=value1;key2=value2;...]语法。从本质上讲,[pandas]被视为未知密钥,被忽略。

尝试使用pip 进行安装

pip install "kedro[pandas]"

到目前为止,conda不支持可选的依赖项。相同的功能请求在此处提交https://github.com/conda/conda/issues/7502

此外,在kedro文档中,它提到的pip是推荐的https://kedro.readthedocs.io/en/stable/02_get_started/02_install.html

也可以使用conda安装Kedro,如下所示,但我们建议在这一点上使用pip来消除任何潜在的依赖性问题,如下所示:

此外,正如@datajoely所提到的,您还可以通过以下内容更具体地说明您需要哪些所有数据集模块。

pip install "kedro[pandas.ParquetDataSet]"

你可以在这里阅读更多关于kedro依赖关系的信息https://kedro.readthedocs.io/en/stable/04_kedro_project_setup/01_dependencies.html?highlight=top-级别#工作流相关性

相关内容

  • 没有找到相关文章