datahub s3元数据摄取需要安装Spark



我正试图从使用datahub的S3上的桶/前缀获得元数据,但我得到错误:{logger:26} - Please set env variable SPARK_VERSION.数据中心s3文档提到Profiles are computed with PyDeequ, which relies on PySpark. Therefore, for computing profiles, we currently require Spark 3.0.3 with Hadoop 3.2 to be installed and the SPARK_HOME and SPARK_VERSION environment variables to be set.

我应该在哪里安装Spark和SPARK_VERSION?在集装箱里吗?我在本地安装了Spark。

我遇到了一个类似的问题,当从datahub UI摄取s3时,它会抛出关于"SPARK_VERSION env未设置"的异常,但如何使用摄取UI设置此env ?我可以使用datahub命令成功摄取,我可以在其中设置环境。p.s.根据我的经验,您不需要安装spark,只需安装插件(pip install 'acryl-datahub[s3]')并设置SPARK_VERSION env足以用于命令ingestion。(datahub v0.14)

最新更新