目前,作为我们要求的一部分,我们正在使用以下Azure组件
-
Azure Event Hub
-
Azure Stream Analytics
-
Azure 表存储
-
Azure Sql DB
基本上,有了前 3 个组件,我们将构建一个分析和报告平台。
目前,我们刚刚开始分析来自 Azure 表存储的数据,并将其显示在分析仪表板中。
最近我们遇到了一个新的Azure产品Azure Data Lake。在微软网站上做一些研究,我们可以看到我们可以轻松地将数据从Azure表存储(在Azure数据工厂的帮助下)迁移到Azure Lake Store。使用 Azure 数据湖和 Azure 数据工厂创建大数据管道
当我们通过上面的链接时,提到我们需要创建一个 Azure 数据湖分析管道来处理数据。
因此,目前尚不清楚分析输出数据的保存位置。我们需要将分析输出保存到某个数据库吗?或者我们可以通过 Http 请求进行实时分析吗?
我们在 Azure 表存储中有大量记录行,这些记录将移动到 Azure 数据湖。对于此方案,这是一个不错的选择,还是我们可以从 Azure 表存储本身使用基于分析的解决方案。
请分享您的想法
能够在数据集上运行作业而无需考虑群集)进行处理后,可以将分析输出数据存储在 Azure 数据湖存储(一个数据存储库,使你能够以原始格式存储各种数据,而无需定义架构)上。
正如你所说"Azure 表存储中有大量记录行将被移动到 Azure 数据湖",我认为对放置在 Azure 数据湖存储中的数据执行分析效率要高得多,因为它提供无限的存储,可以立即读/写访问它,并扩展工作负载所需的吞吐量。它还为大数据集提供低延迟的小型写入。所以我认为这是比 Azure 表存储更好的选择。