使用 Pyspark 从结构化流式数据帧构建 Spark ML 管道模型



我是数据科学新手,正在寻求帮助。

我想从结构化流式处理数据帧构建 Spark ML 管道模型,但出现一些错误。请参阅下面的代码片段和错误消息。

注意:我们已经离线训练了我们的模型,只是想从结构化流数据帧构建评分模型。

法典:

pipelineModel= PipelineModel.load('/model/path/')
scoringDf = pipelineModel.transform(streamingDf) 

错误信息:

Py4JJavaError: An error occurred while calling o1910.transform.
: org.apache.spark.sql.AnalysisException: Queries with streaming sources must be executed with writeStream.start();;
Kafka

我们正在使用DSE Cassandra v 6.0,它有Spark 2.2.1。所以有人建议在Spark 2.2中将预先训练的PipelineML对象转换为流数据帧的问题吗?

请给我一些意见。

您正在尝试在流式处理结束之前进行转换。流式处理是一个有点不同的概念,在这里您假设您正在处理批处理数据,您可以在一个步骤中完成所有内容。

尝试在调用转换方法之前通过添加您的流上下文变量.awaitTermination(( 来等待流计算结束。

您可以阅读此处以了解 Spark 的流式计算。

最新更新