我正在尝试在屏幕上显示一些流媒体数据(twitter提要(。这样做是为了更好地了解Spark中正在发生的事情(在一定程度上进行调试(,但我没有得到任何输出。对于相同的查询,写入csv文件可以正常工作,但对于控制台,没有任何结果。我正在使用Jupyter实验室。查询为;
tweets_query = tweets
.selectExpr("cast(value as string)")
.select( f.from_json(f.col("value").cast("string"), schema).alias("tweets"))
.select( "tweets.id", "tweets.text", "tweets.createdOnDate", "tweets.lang", "tweets.loc")
要写入屏幕的部分;
query = tweets_query
.writeStream
.format("console")
.outputMode("append")
.option("truncate","false")
.start()
我错过了什么?
您错过了等待。在启动查询后添加以下行。
sparkSession.streams.awaitAnyTermination()