Kafka Integration with AWS GLUE

找不到此特定集成的任何特定组。

我正在为一家零售组织工作，并尝试将 Kafka 流与 Glue 直接集成。我的意思是将 Kafka Topic 作为 AWS Glue 的输入源。我正在使用Apache Kafka 2.12。

如果有人从事过此集成模式的工作，我将来到这个小组寻求一些帮助。我在此集成测试中的问题如下

1( 当我在 AWS Glue 控制台中创建与 Kafka 的连接时，AWS Glue 控制台上的"测试连接"选项被禁用(灰显(。所以不确定我创建的连接是否正常。

2(在我的设置中 - 输入源是Kafka/主题，带有JSON格式的消息。目标 I 保留为 S3/csv 格式，在源和目标之间默认映射字段。我选择了SparkStreaming作为作业类型。

主要问题是 AWS Glue 作业连续运行数小时，但不生成任何输出。似乎job/pyspark脚本无法从Kafka读取。即使在日志中，我也无法确定它是否连接到 kafka 服务器

3( 当使用 Kafka Stream 时，需要手动创建 AWS Glue 数据库中的表/架构的输入源，我们做到了。但我不确定表架构是否正确创建，正如我在下面的作业日志中注意到的那样(isRegisterWithLF：false(

2020-05-29 09：46：34,047 信息 [线程-9] 胶水。GlueContext (GlueContext.scala：getCatalogSource(176(( - getCatalogSource： catalogId： null， nameSpace： poc-glue-athena-database， tableName： kafka_stream， isRegisterWithLF： false

4( 有人可以确认 AWS Glue 作业是否在内部使用 KSql(kafka 组件(进行任何操作吗？我收到以下警告，用于 kafka 中的端口 8088(我想用于 KSQL 服务器(。我可以理解这一点 - 为什么它会来，因为我没有在我的设置中设置 KSQL 实例。因为它是警告 - 我认为这应该不是 AWS 粘合作业不起作用的大问题。 2020-05-29 09：46：36,201 警告 [线程-9] 客户端。YarnClient (YarnClient.java：makeRestApiRequest(66(( - URL http://0.0.0.0:8088/ws/v1/cluster/apps/application_1590745365782_0001 的 GET 请求失败 com.amazon.ws.emr.hadoop.fs.shaded.org.apache.http.conn.HttpHostConnectException：连接到 0.0.0.0：8088 [/0.0.0.0] 失败：连接被拒绝(连接被拒绝(

问候桑吉夫

我一直在使用引导服务器(：9094(进行TLS，但GLUE中没有读取数据。但是当我使用引导服务器进行纯文本(kafka.us-west-2.amazonaws.com:9092(时。它正在被阅读。

相关内容

最新更新

热门标签：