我正在开发一个小的大数据项目,我想知道是否有一种方法可以使用python3从Spark Streaming v3.0的Kafka Topic中读取流。
我在https://spark.apache.org/docs/3.0.0-preview/streaming-programming-guide.html这是链接工件spark-streaming-kafka0-10_2.12来处理这种流所必需的,但我发现这些依赖项与Python不兼容(在集成指南中,只有Java或Scala的示例,并且来自不同版本的spark streaming,我读到不支持Python语言:https://spark.apache.org/docs/2.4.6/streaming-kafka-integration.html)
我也找到了这个链接,可以回答我的问题,但是。。。https://stackoverflow.com/questions/56960981/does-spark-streaming-kafka-0-10-2-10-work-with-python?rq=1
更多细节:实际上,我有一个来自https://openweathermap.org/api每秒钟发送一次卡夫卡主题。我想用这个流来计算一个地方在上次测量中的实际温度趋势。
我可以切换当前的堆栈选择,所以欢迎其他建议,但我不会更改Python作为我的脚本语言。
提前谢谢。
我通过创建一个;连接器";python中的脚本,使用KafkaConsumer库。它从流中获取数据,并将它们发布在本地主机上的TCP socker上。Spark使用ssc.socketTextStream("127.0.0.1",PORTS(读取那些数据。
我已使用此指南设置代码:https://www.toptal.com/apache/apache-spark-streaming-twitter.