Cray 建议使用环回设备在具有 Lustre 文件系统的 HPC 集群上运行 Spark [1]。问题是大多数 HPC 群集不为其用户提供对环回设备的访问。所以我想知道是否有一个库只在 Lustre 广告上打开一个大文件,让使用将该大文件视为文件系统,然后我们可以利用并行文件访问该一个文件。
这样,我们可以拥有并行IO,同时具有适当的分区和每个分区一个文件。搜索没有向我显示任何东西。
[1] http://wiki.lustre.org/images/f/fb/LUG2016D2_Scaling-Apache-Spark-On-Lustre_Chaimov.pdf
这是否可行在很大程度上取决于您的应用程序。可以创建例如。常规文件中的 ext4 文件系统映像使用 mke2fs
作为普通用户,可以使用链接到您的应用程序的 libext2fs 访问它(可能是单线程的(或通过用户空间中的 fuse2fs 访问它。可能是 fuse2fs 仍然需要 root 权限才能设置,但我并不肯定,但在那之后它的行为就像一个普通的文件系统,并且不需要块设备。