Mapreduce编程环境-无缝迭代开发

我是MapReduce的新手。我从简单的单词计数例子开始。

使用Eclipse IDE，我创建了一个简单的Java Maven项目，添加了MapReduce依赖项，将我的程序编译到Jar中，将其复制到Cloudera CDH VM，并使用虚拟输入数据执行它。一旦我对它的成功运行感到满意，我就把这个Jar放到我的AWS EMR环境中，并在一个更大的(生产)数据集上运行它。

所以，Eclipse是我的IDE, Cloudera CDH VM是我的Dev环境，AWS EMR是我的生产环境。

当我处理像单词计数这样的小项目时，这个设置工作得很好，但是我的MapReduce项目越大，在环境之间传输Jar文件就越麻烦。这使得迭代开发非常乏味。

我想知道我所拥有的这个环境设置是否可以调整/修改/废弃和重建，使其更适合迭代和大规模的MapReduce开发项目。

感谢任何帮助/提示。Dankeschon .

自从我问这个问题以来，情况没有太大变化。还没有找到一个好的替代方法来手动复制jar文件到hadoop执行环境。另请参见-从Eclipse在AWS-EMR上运行MapReduce作业

相关内容

最新更新

热门标签：