Alluxio with/without HDFS



我有一个将HDFS作为存储分布式文件系统的集群,但我刚刚读到了关于alluxio快速灵活的信息。所以,我的问题是:我应该将Alluxio与HDFS一起使用还是Alluxio是HDFS的替代品?(我在他们的网站上看到,存储文件系统的共享存储可以是网络文件系统(NFS(。所以,我认为HDFS不是必需的。如果我犯了错误,请纠正我(。

在哪种模式下性能更好:带有Alluxio或Alluxio斯坦alone的HDFS(我的意思是独立术语是在集群中单独使用而不是在本地使用(。

来自Alluxio维护者的回复。

首先,Alluxio不是HDFS的替代品。相反,它是其他分布式/云存储系统之上的新抽象层,包括HDFS,S3,Azure对象存储和其他可能的选择。在你的情况下,如果你的数据已经在HDFS中,你可能仍然会保留HDFS作为Alluxio的持久数据层。

用户将Alluxio放在图片中并看到显着好处的典型场景包括:

  • 您的物理数据不位于您的计算中。 例如,您的大数据引擎正在从 S3 或其他对象存储中读取数据。在这种情况下,通过部署带有计算节点的Alluxio,可以使Alluxio作为文件系统级缓存工作,以避免重复通过网络获取数据。见 http://www.alluxio.org/overview/remote-data-acceleration
  • 您正在管理多个存储,并希望公开单个数据访问层以简化管理。 例如,可以将多个S3/桶"挂载"到一个Alluxio部署中,这样它们就在同一命名空间下显示为不同的目录。见 http://www.alluxio.org/overview/storage-unification

关于您最初的性能问题。答案是,视情况而定。如果您的 HDFS 远离计算,您将期望获得良好的性能提升。我也看到了HDFS瓶颈的情况,Alluxio也可能有助于减少负载,并为某些关键任务工作提供良好的SLA。

最新更新