从数据湖存储中的许多 blob 创建单个 Azure 分析服务表



我是分析服务和数据湖的新手,在 POC 上工作。 我使用数据工厂从 blob 存储中提取一些 TSV 数据,这些数据在逻辑上组织为小型"分区"blob(数千个 blob(。我有一个根文件夹,可以认为它包含整个表,其中包含逻辑上表示按客户分区的子文件夹 - 这些子文件夹包含按日期对客户数据进行分区的子文件夹。 我想将整个文件夹/blob 结构建模为分析服务中的一个表,但似乎无法弄清楚如何。 我看过从单个 ADLS 文件创建单个 AAS 表的博客文章和示例,但有关其他数据文件布局的信息似乎很少。 我的做法是错误的,还是我只是错过了一些明显的东西?

这篇博客文章提供了有关将多个 blob 追加到单个表中的说明。

然后,第 3 部分博客文章介绍了创建一些 Analysis Services 分区以提高处理性能。

最后,这篇博文介绍了连接到 Azure Data Lake 存储(与前面文章中的 Azure Blob 存储相对(。

我会使用这些方法在 Azure 分析服务中创建 20-200 个分区(而不是数千个(。分区通常应至少为 800 万行,以获得最佳压缩和性能。我认为这需要将几个 blob 附加到一起才能达到该大小。

相关内容

最新更新