我是MapReduce的新手。我从简单的单词计数例子开始。
使用Eclipse IDE,我创建了一个简单的Java Maven项目,添加了MapReduce依赖项,将我的程序编译到Jar中,将其复制到Cloudera CDH VM,并使用虚拟输入数据执行它。一旦我对它的成功运行感到满意,我就把这个Jar放到我的AWS EMR环境中,并在一个更大的(生产)数据集上运行它。
所以,Eclipse是我的IDE, Cloudera CDH VM是我的Dev环境,AWS EMR是我的生产环境。
当我处理像单词计数这样的小项目时,这个设置工作得很好,但是我的MapReduce项目越大,在环境之间传输Jar文件就越麻烦。这使得迭代开发非常乏味。
我想知道我所拥有的这个环境设置是否可以调整/修改/废弃和重建,使其更适合迭代和大规模的MapReduce开发项目。
感谢任何帮助/提示。Dankeschon .
自从我问这个问题以来,情况没有太大变化。还没有找到一个好的替代方法来手动复制jar文件到hadoop执行环境。另请参见-从Eclipse在AWS-EMR上运行MapReduce作业