当使用ADLS Gen2摄取到数据湖时,文件应该存储在文件共享中还是容器中?



当获取数据并转换建立在Azure ADLS gen2存储帐户(分层)之上的数据湖的各个层时,我可以在容器或文件共享中组织文件。我们目前以原始格式"。csv"将原始文件摄取到raw容器中。然后,我们将这些文件合并到一个QUERY容器中,以压缩的拼花格式,以便我们可以在SQL服务器中使用Polybase虚拟化所有数据。

根据我的理解,只有存储在文件共享中的文件才能使用典型的SMB/UNC路径访问。在构建这样的数据湖时,是否应该避免在ADLS中使用容器,以获得能够通过文件共享访问这些相同文件的额外好处?

我确实注意到位于文件共享下的文件似乎不支持元数据键/值(除非它只是没有通过UI暴露)。除此之外,我想知道这两种类型之间是否还有其他真正的区别。

感谢@Gaurav在评论区分享知识。

(使用评论区提供的详细信息发布答案,以帮助其他社区成员)

以前,只有存储在Azure存储文件共享中的文件可以使用典型的SMB/UNC路径访问。但是最近,使用NFS 3.0协议也可以挂载Blob Container。本微软官方文档提供了一步一步的指导。

限制:只能从基于Linux的Azure虚拟机(VM)或本地运行的Linux系统挂载Blob存储中的容器。不支持Windows和Mac OS

相关内容

  • 没有找到相关文章