MapReduce to Spark



我有一个用Java编写的MapReduce作业。这取决于多个类。我想在Spark上运行MapReduce作业。

我应该遵循哪些步骤来执行相同的操作?

我只需要对MapReduce类进行更改?

谢谢!

这是一个非常广泛的问题,但它的缺点是:

  1. 创建输入数据的 RDD。
  2. 使用映射器代码调用map。输出键值对。
  3. 使用您的化简器代码调用reduceByKey
  4. 将生成的 RDD 写入磁盘。

Spark比MapReduce更灵活:在步骤1和4之间可以使用多种方法来转换数据。

相关内容

  • 没有找到相关文章