使用 Pyspark 从结构化流式数据帧构建 Spark ML 管道模型

我是数据科学新手，正在寻求帮助。

我想从结构化流式处理数据帧构建 Spark ML 管道模型，但出现一些错误。请参阅下面的代码片段和错误消息。

注意：我们已经离线训练了我们的模型，只是想从结构化流数据帧构建评分模型。

法典：

pipelineModel= PipelineModel.load('/model/path/')
scoringDf = pipelineModel.transform(streamingDf)

错误信息：

Py4JJavaError: An error occurred while calling o1910.transform.
: org.apache.spark.sql.AnalysisException: Queries with streaming sources must be executed with writeStream.start();;
Kafka

我们正在使用DSE Cassandra v 6.0，它有Spark 2.2.1。所以有人建议在Spark 2.2中将预先训练的PipelineML对象转换为流数据帧的问题吗？

请给我一些意见。

您正在尝试在流式处理结束之前进行转换。流式处理是一个有点不同的概念，在这里您假设您正在处理批处理数据，您可以在一个步骤中完成所有内容。

尝试在调用转换方法之前通过添加您的流上下文变量.awaitTermination(( 来等待流计算结束。

您可以阅读此处以了解 Spark 的流式计算。

相关内容

最新更新

热门标签：