如何在Datastax Enterprise Edition中集成kafka和Spark流



我从 apache 网站下载后集成了 kafka 和 Spark 流。但是,我想将Datastax用于我的大数据解决方案,我看到您可以轻松地集成Cassandra和Spark。

但是我在最新版本的Datastax企业版中看不到任何kafka模块。如何在这里将 kafka 与火花流集成?

我想做的基本上是:

  • 启动必要的代理和服务器
  • 启动卡夫卡制作人
  • 启动卡夫卡消费者
  • 将火花流连接到 kafka 代理并从那里接收消息

然而,经过快速的谷歌搜索,我在任何地方都看不到kafka已经与datastax enterprise合并。

我怎样才能做到这一点?我对datastax和kafka真的很陌生,所以我需要一些建议。语言首选项 - 蟒蛇。谢谢!

好问题。DSE 不会立即合并 Kafka,您必须自己设置 kafka,然后设置您的 Spark 流作业才能从 kafka 读取。由于 DSE 确实捆绑了 Spark,因此请使用 DSE Spark 运行 Spark 流式处理作业。

您可以使用直接 kafka API 或 kafka 接收器,有关权衡的更多详细信息。TL;DR 直接 API 不需要 WAL 或 zookeeper for HA。

下面是如何配置 Kafka 以使用 DSE 的示例,作者是 Cary Bourgeois:

https://github.com/CaryBourgeois/DSE-Spark-Streaming/tree/master

最新更新