你能在EC3上从Hadoop访问EMRFS吗



对EMRFS的访问仅限于EMR,也可以从安装在EC2上的Hadoop访问。有人能指出一些关于AWS如何管理从S3到Hadoop集群的数据传输以进行处理的文章吗。与S3a 相比,EMRFS如何更高效

EMRFS是EMR用来访问s3的实现,因此,您将无法将其与EC2一起安装的hadoop一起使用。

对于EC2上的Hadoop,您将不得不使用Hadoop-aws模块(其中包含s3a(。

https://hadoop.apache.org/docs/current/hadoop-aws/tools/hadoop-aws/index.html#Overview

就性能而言,我不确定是否存在重大差异或影响。(这是非常主观的,您可能需要进行性能测试来验证这一点(。但emrfs和s3a之间有一个主要区别。EMRFS在一段时间内提供了强大的一致性。这在您需要读写一致性的地方(如HBASE和其他应用程序(非常有用。

  • https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-plan-consistent-view.html

请注意,apacheHadoop也与s3guard建立了类似的强一致性模型。

  • https://hadoop.apache.org/docs/r3.0.3/hadoop-aws/tools/hadoop-aws/s3guard.html

一般经验法则是在使用EMR时使用EMRFS,在使用其他hadoop发行版时使用s3a实现。

最新更新