我使用 spark-sql-2.4.1v , kafka with Cassandra. 我有一个场景,我会得到不同的跨国数据,其中可能包括更新记录......我需要使用添加字段的值更新之前已收到的记录。
这可以通过火花流来实现吗,卡克法与卡桑德拉。
如果是这样,我该如何进行? 请提供任何线索。 如果没有,我还需要在我的技术堆栈中添加什么?
谢谢。
只需按照文档中的说明通过Spark Cassandra Connector写入数据(对于RDD,对于DataFrames( - 此操作将更新现有数据或插入新数据。根据所选的 API,您可能需要配置连接器以将数据追加到表,而不是每次都完全覆盖。