Kafka Integration with AWS GLUE



找不到此特定集成的任何特定组。

我正在为一家零售组织工作,并尝试将 Kafka 流与 Glue 直接集成。我的意思是将 Kafka Topic 作为 AWS Glue 的输入源。我正在使用Apache Kafka 2.12。

如果有人从事过此集成模式的工作,我将来到这个小组寻求一些帮助。 我在此集成测试中的问题如下

1( 当我在 AWS Glue 控制台中创建与 Kafka 的连接时,AWS Glue 控制台上的"测试连接"选项被禁用(灰显(。所以不确定我创建的连接是否正常。

2(在我的设置中 - 输入源是Kafka/主题,带有JSON格式的消息。目标 I 保留为 S3/csv 格式,在源和目标之间默认映射字段。我选择了SparkStreaming作为作业类型。

主要问题是 AWS Glue 作业连续运行数小时,但不生成任何输出。似乎job/pyspark脚本无法从Kafka读取。即使在日志中,我也无法确定它是否连接到 kafka 服务器

3( 当使用 Kafka Stream 时,需要手动创建 AWS Glue 数据库中的表/架构的输入源,我们做到了。但我不确定表架构是否正确创建,正如我在下面的作业日志中注意到的那样(isRegisterWithLF:false(

2020-05-29 09:46:34,047 信息 [线程-9] 胶水。GlueContext (GlueContext.scala:getCatalogSource(176(( - getCatalogSource: catalogId: null, nameSpace: poc-glue-athena-database, tableName: kafka_stream, isRegisterWithLF: false

4( 有人可以确认 AWS Glue 作业是否在内部使用 KSql(kafka 组件(进行任何操作吗?我收到以下警告,用于 kafka 中的端口 8088(我想用于 KSQL 服务器(。我可以理解这一点 - 为什么它会来,因为我没有在我的设置中设置 KSQL 实例。因为它是警告 - 我认为这应该不是 AWS 粘合作业不起作用的大问题。 2020-05-29 09:46:36,201 警告 [线程-9] 客户端。YarnClient (YarnClient.java:makeRestApiRequest(66(( - URL http://0.0.0.0:8088/ws/v1/cluster/apps/application_1590745365782_0001 的 GET 请求失败 com.amazon.ws.emr.hadoop.fs.shaded.org.apache.http.conn.HttpHostConnectException: 连接到 0.0.0.0:8088 [/0.0.0.0] 失败:连接被拒绝(连接被拒绝(

问候 桑吉夫

我一直在使用引导服务器(:9094(进行TLS,但GLUE中没有读取数据。但是当我使用引导服务器进行纯文本(kafka.us-west-2.amazonaws.com:9092(时。它正在被阅读。

相关内容

  • 没有找到相关文章

最新更新