我试图使用Spark Streaming和Kafka从Web服务器摄入和处理消息。
我正在测试https://github.com/dibbhatt/kafka-park-consumer/blob/master/master/readme.md中提到的消费者。
作为第一步,我正在尝试使用提供的示例来查看它的播放方式。但是,我很难在有效载荷中看到数据。
查看以下功能的结果:
ReceiverLauncher.launch
我可以看到它返回了RDD的集合,每种类型:
MessageAndMetadata[Array[Byte]]
我在这一点上被困,不知道该如何解析并查看实际数据。网络上使用SPARK寄出的消费者的所有示例都会创建一个迭代对象,浏览并处理数据。但是,此自定义消费者的返回对象并没有给我任何迭代器接口。
RDD中有一个getPayload()
方法,但我不知道如何从中获取数据。
我的问题是:
这种消费者实际上是生产环境的好选择吗?从外观上看,它提供的功能和提供的抽象似乎非常有前途。
有人尝试过吗?有人知道如何获取数据吗?
预先感谢
Moe
getPayload((需要转换为字符串,例如
new String(line.getPayload())