Windows上的PySpark:配置单元问题

我正试图从Mlib运行LogisticRegressionWithLBFGS，但我遇到了许多配置单元问题：

py4j.protocol.Py4JJavaError: An error occurred while calling o337.trainLogisticRegressionModelWithLBFGS.
: org.apache.spark.sql.AnalysisException: java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient;

事实上，我甚至没有安装Hive。。。但为什么这个功能依赖Hive？文件中没有写。。。安装配置单元以运行任何Mlib函数是先决条件吗？

不需要Hive安装，但Spark需要与Hive兼容的类来操作DataFrame对象，例如ML管道步骤中的对象。

例如，据我所知，pip install pyspark没有附带这些(或任何Hadoop(库。

如果您从Apache站点下载了Spark with Hadoop，那么您将获得Hive库和bin/pyspark脚本。不过，在windows上，您可能需要设置WinUtils。

相关内容

最新更新

热门标签：