如何在 Apache Spark 中链接多个作业



>我想知道有没有办法在Spark中链接作业,以便将第一个作业的输出RDD(或其他格式(作为输入传递给第二个作业?

是否有来自Apache Spark的API?这甚至是惯用的方法吗?

据我发现,有一种方法可以通过yarn客户端启动另一个进程,例如Spark - 使用参数从java调用Spark jar,但这假设您将其保存到作业之间的某个中间存储中。

SparkContext上也有runJob和submitJob,但它们是否适合它?

使用相同的 RDD 定义来定义作业的输入/输出。 然后,您应该能够链接它们。

另一种选择是使用数据帧而不是RDD,并在运行时找出架构。

相关内容

  • 没有找到相关文章

最新更新