pySpark writerStream未向Jupyter实验室的控制台显示输出



我正在尝试在屏幕上显示一些流媒体数据(twitter提要(。这样做是为了更好地了解Spark中正在发生的事情(在一定程度上进行调试(,但我没有得到任何输出。对于相同的查询,写入csv文件可以正常工作,但对于控制台,没有任何结果。我正在使用Jupyter实验室。查询为;

tweets_query = tweets
.selectExpr("cast(value as string)")
.select( f.from_json(f.col("value").cast("string"), schema).alias("tweets"))
.select( "tweets.id", "tweets.text", "tweets.createdOnDate", "tweets.lang", "tweets.loc")

要写入屏幕的部分;

query = tweets_query 
.writeStream 
.format("console") 
.outputMode("append") 
.option("truncate","false") 
.start()

我错过了什么?

您错过了等待。在启动查询后添加以下行。

sparkSession.streams.awaitAnyTermination()

相关内容

最新更新