我刚开始使用Kedro,在我的conda环境中安装Kedro后,在尝试列出我的目录时遇到以下错误:
执行命令:kedro catalog list
错误:
kedro.io.core.DataSetError:分析配置时发生异常对于数据集
df_medinfo_raw
:无法加载对象ParquetDataSet
来自CCD_ 4。请参阅上的文档如何安装的相关依赖项kedro.extras.datasets.pandas.ParketDataSet:
我通过conda forge:conda install -c conda-forge "kedro[pandas]"
安装了kedro。据我所知,这种安装kedro的方式也安装了panda依赖项。
我试图阅读kedro文档中的依赖项,但并不清楚如何解决这类问题。
我的kedro版本是0.17.6。
Kedro使用Pandas来加载ParquetDataSet
对象,而Pandas需要额外的依赖项来实现这一点(请参阅"安装:其他数据源"(。也就是说,除了Panda之外,还必须安装fastparquet
或pyarrow
。
对于康达,您可以选择:
## use pyarrow for parquet
conda install -c conda-forge kedro pandas pyarrow
或
## or use fastparquet for parquet
conda install -c conda-forge kedro pandas fastparquet
请注意,问题kedro[pandas]
中使用的语法对Conda来说毫无意义(即,它最终解析为仅kedro
(。Conda包规范使用名为MatchSpec
的自定义语法,其中[...]
内部的任何内容都将被解析为[key1=value1;key2=value2;...]
语法。从本质上讲,[pandas]
被视为未知密钥,被忽略。
尝试使用pip 进行安装
pip install "kedro[pandas]"
到目前为止,conda不支持可选的依赖项。相同的功能请求在此处提交https://github.com/conda/conda/issues/7502
此外,在kedro文档中,它提到的pip是推荐的https://kedro.readthedocs.io/en/stable/02_get_started/02_install.html
也可以使用conda安装Kedro,如下所示,但我们建议在这一点上使用pip来消除任何潜在的依赖性问题,如下所示:
此外,正如@datajoely所提到的,您还可以通过以下内容更具体地说明您需要哪些所有数据集模块。
pip install "kedro[pandas.ParquetDataSet]"
你可以在这里阅读更多关于kedro依赖关系的信息https://kedro.readthedocs.io/en/stable/04_kedro_project_setup/01_dependencies.html?highlight=top-级别#工作流相关性