自动/编程地从spark历史中重建一个spark作业



如果您可以访问spark历史服务器,则可以查看正在运行/已完成的spark作业。在SQL选项卡上,您可以查看整个作业,包括整个执行计划。显然,我可以因此访问代码/业务逻辑,而我可能不应该访问这些逻辑。我想知道是否可以(I)访问整个spark作业(即运行它的代码)或以编程方式重建spark作业(以便我可以自己运行)

我意识到数据访问是一个单独的问题。

您不能仅仅通过查看执行计划来重建被执行的确切代码。执行计划是由Sparks Catalyst Engine创建的,它可以获取您的代码并对其进行优化。多个脚本可以导致相同的执行计划。但你也可以逆向工程一个脚本,它的功能基本相同。

最新更新