使用来自 Kafka 的数据时如何跳过多行记录中的标头

我想知道如何在火花消耗来自 kafka 的数据时跳过标头。

我的 Kafka 主题在特定时间包含如下消息：

name,age,year
ton,33,2018
fon,34,2019

每当我使用来自 Kafka 的数据时，我都想跳过标头部分。

我的火花结构化流媒体消费者如下;

 val kafkaDatademostr = spark.readStream.format("kafka").option("kafka.bootstrap.servers","fffff.dl.ggg.com:8023").option("subscribe","dfo").option("kafka.security.protocol","SASL_PLAINTEXT").load
 val interval=kafkaDatademostr.select(col("value").cast("string"),col("timestamp")).alias("csv").select("csv.*")

有人可以帮我如何在使用来自 kafka 的数据时跳过标题部分吗？我是Spark结构化流的新手

value列是 Kafka 记录的值，在您的情况下，它看起来只是一个多行字符串（带有换行符和第一行，您称之为标题）。Spark 不知道它，所以你必须在从 Kafka 中提取记录后自己解析它们。

顺便说一句，它在Spark SQL中与Kafka数据源相似。将readStream替换为read，看看自己。

相关内容

最新更新

热门标签：