使用Python3将Apache Spark 3.0连接到Kafka

我正在开发一个小的大数据项目，我想知道是否有一种方法可以使用python3从Spark Streaming v3.0的Kafka Topic中读取流。

我在https://spark.apache.org/docs/3.0.0-preview/streaming-programming-guide.html这是链接工件spark-streaming-kafka0-10_2.12来处理这种流所必需的，但我发现这些依赖项与Python不兼容(在集成指南中，只有Java或Scala的示例，并且来自不同版本的spark streaming，我读到不支持Python语言：https://spark.apache.org/docs/2.4.6/streaming-kafka-integration.html)

我也找到了这个链接，可以回答我的问题，但是。。。https://stackoverflow.com/questions/56960981/does-spark-streaming-kafka-0-10-2-10-work-with-python?rq=1

更多细节：实际上，我有一个来自https://openweathermap.org/api每秒钟发送一次卡夫卡主题。我想用这个流来计算一个地方在上次测量中的实际温度趋势。

我可以切换当前的堆栈选择，所以欢迎其他建议，但我不会更改Python作为我的脚本语言。

提前谢谢。

我通过创建一个；连接器"；python中的脚本，使用KafkaConsumer库。它从流中获取数据，并将它们发布在本地主机上的TCP socker上。Spark使用ssc.socketTextStream("127.0.0.1"，PORTS(读取那些数据。

我已使用此指南设置代码：https://www.toptal.com/apache/apache-spark-streaming-twitter.

相关内容

最新更新

热门标签：