我遇到了一个名为LivyBatchOperator的东西,但找不到一个很好的例子来让它在气流中提交pyspark应用程序。任何关于这方面的信息将不胜感激。提前谢谢。
我遇到了这篇博客文章,它可以帮助您浏览Airflow + Spark上的可用选项。
这是LivyBatchOperator的示例,这里是关于如何安装气流Livy-Operator的。
我会推荐以下选项:
- AWS EMR:使用EmrAddStepsOperator
- 常规火花簇:使用上述机制在气流中设置 Livy 运算符。这将从气流服务器的角度为您提供流畅的配置,以及在火花集群前面使用 Livy。
让我知道你的回应!