可以不用HDFS使用Apache纱



我想将Apache纱用作集群和资源管理器来运行一个框架,其中资源将在同一框架的不同任务中共享。我想使用自己的分布式外部文件系统。

  1. 是否可以使用纱线使用任何其他分布式文件系统除了HDFS?

  2. 如果是的,需要实现什么HDFS API?

  3. 运行纱线需要什么hadoop组件?

这里有一些不同的问题

您可以使用纱线使用S3之类的东西来传播二进制文件吗?

是:这是LinkedIn过去使用http://downloads部署SAMZA的方式。SAMZA不需要集群文件系统,因此群集中没有HDF,只有本地文件://文件系统,每个主机一个。

需要群集文件系统的应用程序在这样的集群中无法使用。

您可以带有替代文件系统的纱线群吗?

是。

对于"文件系统"是什么,请查看文件系统规范。您需要在FilesyTem上进行一致的视图:新创建文件列表(),未找到已删除的文件,立即可见。文件和目录的重命名()必须是原子操作,理想情况下是o(1)。它用于原子化工作,检查点,...哦,对于hbase,需要(append()。

mapr做到这一点,用glusterfs redhat;IBM和EMC为他们的。请记住,这里几乎所有内容都经过HDFS测试;您最好希望其他群集FS已经完成了测试(或者有人为他们完成了测试,例如Hortonworks或Cloudera)。

您可以使用对象存储作为基础FS添加纱线群集。

这取决于FS是否提供了一致的文件系统视图,而不是最终的一致性世界视图。HBase是这里的真实测试。

  1. Microsoft Azure存储是一致的,有租赁方法可以非常快速地获得对FS和Rename()S的独家访问。在Azure中,它完全取代了HDFS。
  2. 2017年3月1日宣布的Google Cloud Storage宣布GCS提供一致性。也许现在可以用作替代品。那里没有经验。
  3. Amazon EMR确实使用(a)发电机作为一致的元数据和(b)做可怕的事情以使HBase工作的替代。
  4. ASF自己的S3客户端S3A不能用作替代品。我们从事它的团队一直专注于读写perf作为数据的来源和最终目的地。在S3Guard中,添加了Dynamo层和S3Guard参数,能够将其用作高性能的工作目的地(在避免Rename()的同时对失败有弹性())。

您正在编写的新分布式文件系统可以用作替代HDFS?

好吧,您当然可以尝试!

首先将所有文件系统合同测试用于工作,从而衡量基本API合规性。然后查看进行系统集成的所有Apache BigTop测试。我建议您避免HBase&最初,Accumulo专注于:MapReduce,Hive,Spark,Flink。

不要害怕上Hadoop Common-dev&bigtop列表并提出问题。

这是您必须实现的接口,请密切关注您必须支持的保证。有一个测试合同的公用事业。如果您需要一个示例,则Hadoop中有大量的不同圆柱系统的实现,例如S3/azureblobs/ftp可以用作一个很好的起点。

您可以按类配置文件系统实现,所有组件均应将fs.defaultFS授予配置密钥。

是的,您可以提供支持HDFS API的文件存储。

例如您可以使用AWS S3(S3N://或S3A://)代替HDFS。还有其他文件系统支持HDFS API。

纱线不仅是分布式群集的资源管理器。Apache Mesos是资源经理类似的纱线(但内部技术是不同的。)。这并不取决于Hadoop组件。在企业云中,已经有许多用途,例如DC/OS(由Mesos,Docker等组成)

可以在没有HDF的情况下使用纱。您不必配置和启动HDFS服务,因此它将在没有HDFS的情况下运行。

但是,如果没有Hadoop,就无法安装纱线。您必须下载hadoop并仅配置纱线(以及要使用的其他服务)。

相关内容

  • 没有找到相关文章

最新更新