火花流检查点占用多少空间



我是Spark Streaming的新手,对检查点知之甚少。流数据是否存储在检查点中?数据存储在hdfs还是内存中?需要多少空间?

根据:Spark权威指南

流应用程序最重要的操作问题是故障恢复。失误是不可避免的:你将失去集群中的机器,如果没有正确迁移,或者您甚至可能有意重新启动群集或应用在任何一种情况下,结构化流媒体都允许您只需重新启动即可恢复应用程序。要执行此操作,您必须将应用程序配置为使用检查点和预写日志,这两者都由发动机自动处理。明确地必须将查询配置为写入可靠的文件系统(例如,HDFS、S3或任何兼容的文件系统(。结构化流将定期保存所有相关进度信息(例如,在给定的触发器(以及当前中间状态值检查点位置。在失败的情况下,您只需要重新启动您的应用程序,确保指向同一个检查点位置,它将自动恢复状态并启动在它停止的地方处理数据。您不必手动管理该状态代表应用程序--结构化流式处理为你。

我得出结论,这是作业进度信息和中间结果,其中存储在检查点中而不是数据,检查点位置必须是HDFS兼容文件系统中的路径,所需空间基于中间生成的输出。

最新更新