在Scala中处理Kafka消息字节数组



我试图使用Spark Streaming和Kafka从Web服务器摄入和处理消息。

我正在测试https://github.com/dibbhatt/kafka-park-consumer/blob/master/master/readme.md中提到的消费者。

作为第一步,我正在尝试使用提供的示例来查看它的播放方式。但是,我很难在有效载荷中看到数据。

查看以下功能的结果:

ReceiverLauncher.launch

我可以看到它返回了RDD的集合,每种类型:

MessageAndMetadata[Array[Byte]]

我在这一点上被困,不知道该如何解析并查看实际数据。网络上使用SPARK寄出的消费者的所有示例都会创建一个迭代对象,浏览并处理数据。但是,此自定义消费者的返回对象并没有给我任何迭代器接口。

RDD中有一个getPayload()方法,但我不知道如何从中获取数据。

我的问题是:

  1. 这种消费者实际上是生产环境的好选择吗?从外观上看,它提供的功能和提供的抽象似乎非常有前途。

  2. 有人尝试过吗?有人知道如何获取数据吗?

预先感谢

Moe

getPayload((需要转换为字符串,例如

new String(line.getPayload())

最新更新