当文件夹的大小达到某个阈值时,是否可以通过 oozie 触发火花作业?



例如,如果文件夹达到 100 MB,则应触发 Spark 作业。 我在oozie中阅读了dirSize hdfs el函数,但我不确定如何使用它。当文件夹达到 100 MB 时,它会触发作业,还是必须定期签入,比如说,每 2 分钟签入一次?

1 个选项是定期运行 Oozie 协调器(例如每 2 分钟一次)来检查文件大小,如果达到指定的限制,您可以触发 Spark 作业。

最新更新