datahub s3元数据摄取需要安装Spark

我正试图从使用datahub的S3上的桶/前缀获得元数据，但我得到错误:{logger:26} - Please set env variable SPARK_VERSION.数据中心s3文档提到Profiles are computed with PyDeequ, which relies on PySpark. Therefore, for computing profiles, we currently require Spark 3.0.3 with Hadoop 3.2 to be installed and the SPARK_HOME and SPARK_VERSION environment variables to be set.

我应该在哪里安装Spark和SPARK_VERSION?在集装箱里吗?我在本地安装了Spark。

我遇到了一个类似的问题，当从datahub UI摄取s3时，它会抛出关于"SPARK_VERSION env未设置"的异常，但如何使用摄取UI设置此env ?我可以使用datahub命令成功摄取，我可以在其中设置环境。p.s.根据我的经验，您不需要安装spark，只需安装插件(pip install 'acryl-datahub[s3]')并设置SPARK_VERSION env足以用于命令ingestion。(datahub v0.14)

相关内容

最新更新

热门标签：