>我想知道有没有办法在Spark中链接作业,以便将第一个作业的输出RDD(或其他格式(作为输入传递给第二个作业?
是否有来自Apache Spark的API?这甚至是惯用的方法吗?
据我发现,有一种方法可以通过yarn客户端启动另一个进程,例如Spark - 使用参数从java调用Spark jar,但这假设您将其保存到作业之间的某个中间存储中。
SparkContext
上也有runJob和submitJob,但它们是否适合它?
使用相同的 RDD 定义来定义作业的输入/输出。 然后,您应该能够链接它们。
另一种选择是使用数据帧而不是RDD,并在运行时找出架构。