找不到此特定集成的任何特定组。
我正在为一家零售组织工作,并尝试将 Kafka 流与 Glue 直接集成。我的意思是将 Kafka Topic 作为 AWS Glue 的输入源。我正在使用Apache Kafka 2.12。
如果有人从事过此集成模式的工作,我将来到这个小组寻求一些帮助。 我在此集成测试中的问题如下
1( 当我在 AWS Glue 控制台中创建与 Kafka 的连接时,AWS Glue 控制台上的"测试连接"选项被禁用(灰显(。所以不确定我创建的连接是否正常。
2(在我的设置中 - 输入源是Kafka/主题,带有JSON格式的消息。目标 I 保留为 S3/csv 格式,在源和目标之间默认映射字段。我选择了SparkStreaming作为作业类型。
主要问题是 AWS Glue 作业连续运行数小时,但不生成任何输出。似乎job/pyspark脚本无法从Kafka读取。即使在日志中,我也无法确定它是否连接到 kafka 服务器
3( 当使用 Kafka Stream 时,需要手动创建 AWS Glue 数据库中的表/架构的输入源,我们做到了。但我不确定表架构是否正确创建,正如我在下面的作业日志中注意到的那样(isRegisterWithLF:false(
2020-05-29 09:46:34,047 信息 [线程-9] 胶水。GlueContext (GlueContext.scala:getCatalogSource(176(( - getCatalogSource: catalogId: null, nameSpace: poc-glue-athena-database, tableName: kafka_stream, isRegisterWithLF: false
4( 有人可以确认 AWS Glue 作业是否在内部使用 KSql(kafka 组件(进行任何操作吗?我收到以下警告,用于 kafka 中的端口 8088(我想用于 KSQL 服务器(。我可以理解这一点 - 为什么它会来,因为我没有在我的设置中设置 KSQL 实例。因为它是警告 - 我认为这应该不是 AWS 粘合作业不起作用的大问题。 2020-05-29 09:46:36,201 警告 [线程-9] 客户端。YarnClient (YarnClient.java:makeRestApiRequest(66(( - URL http://0.0.0.0:8088/ws/v1/cluster/apps/application_1590745365782_0001 的 GET 请求失败 com.amazon.ws.emr.hadoop.fs.shaded.org.apache.http.conn.HttpHostConnectException: 连接到 0.0.0.0:8088 [/0.0.0.0] 失败:连接被拒绝(连接被拒绝(
问候 桑吉夫
我一直在使用引导服务器(:9094(进行TLS,但GLUE中没有读取数据。但是当我使用引导服务器进行纯文本(kafka.us-west-2.amazonaws.com:9092(时。它正在被阅读。