我有一个用Java编写的MapReduce作业。这取决于多个类。我想在Spark上运行MapReduce作业。
我应该遵循哪些步骤来执行相同的操作?
我只需要对MapReduce类进行更改?
谢谢!
这是一个非常广泛的问题,但它的缺点是:
- 创建输入数据的 RDD。
- 使用映射器代码调用
map
。输出键值对。 - 使用您的化简器代码调用
reduceByKey
。 - 将生成的 RDD 写入磁盘。
Spark比MapReduce更灵活:在步骤1和4之间可以使用多种方法来转换数据。