Spark Streaming与多个历史表相连



火花版本:1.5.2 我们正在尝试第一次实现流媒体,并尝试在传入流上进行CDC,并将其存储在HDFS中。

什么在工作我们用1个表CDC启动了POC,并带有输入文件流。基础(历史)表(Hive)为2.5 GB,在快速压缩的镶木格式中为2.5 GB。我们将其与输入Dstreams(〜10000记录)一起加入,流式间隔为5分钟。由于我们需要一遍又一遍地使用相同的基本数据加入相同的基本数据,因此我们正在缓存基本数据,因此连接正在快速工作。

使用以下设置-num-executors 8 - executor-cores 5-驱动器 - 内存1G-Ececutor-Memory 4G

我们需要的建议如果我们必须扩大相同的解决方案才能在生产中同时在多个表上进行CDC(在〜100个历史表上的不同CDC操作),我们知道,由于有限的可用性,我们知道缓存所有基本数据不是一个好主意内存。

在不将所有基本数据读入内存中的所有基本数据的情况下,有什么更好的方法可以进行流式传输的连接?无论如何,铲斗表都会有所帮助吗?

我认为文档的这一部分应该有用。

您可以将数据加载为RDD,然后在transform操作的帮助下将其与Dstream一起加入。

相关内容

  • 没有找到相关文章

最新更新