Azure Data Explorer (ADX) vs Polybase vs Databricks



问题

今天,我发现了另一个名为Azure Data Explorer(ADX(的Azure服务。很抱歉这样的服务比较,我对除 ADX 以外的所有服务都有很好的了解。我觉得有一个很大的功能覆盖,所以想知道 ADX 在 Azure 基础结构中的确切角色。

当ADX明显优于Synapse/Databricks时,用例是什么?

我对ADX的理解

AFAIK,ADX 是一个群集(按小时计费,如 Databricks 或 Synapse,而不是 ADLA(,它为你处理数据库,并针对流式引入和大规模即席查询进行了优化。它还支持外部表,这些表的性能较差,但更便宜(需要为 Blob/ADLS 存储付费(。

我不明白为什么我们需要 ADX,如果:

  1. Azure Synapse 具有类似的定价模型(群集、每小时(,它还支持大规模流式引入和即席查询。Azure Synapse 支持通过 Polybase 外部表查询 BlobStorage/ADLS。
  2. Databricks是另一种能够做到这一点的服务。使用 Databricks Ingest 和 Delta Lake - 您可以引入流数据并以流式处理和批处理方式使用它们。实际上,您可以拥有交互式群集来为您处理即席查询。
  3. 此外,如果需要实时分析 - 请使用 Azure 流分析。如果你想要类似雅典娜的体验 - 使用ADLA(它仍然不支持ADLS gen2(。

Azure 数据资源管理器专注于高速、高容量高方差(大数据的 3 V(。它对流入的此类数据提供超快速的交互式查询。它原生支持 json 和文本,包括全文搜索和索引。

它用于与大量垂直行业中的感知活动和时间序列相关的广泛方案:IoT、API 日志、事务监视和临时数据探索。

Microsoft提供ADX即服务,因为它是Microsoft用于自己的遥测的主要服务,我们在安全,运营监控,游戏分析,产品洞察使用分析,物联网,联网车辆方面提供的所有分析解决方案都基于ADX。您可以在我们的文档中找到完整列表。为清楚起见,SQL、Synapse、CosmosDB 将其遥测数据存储在 Azure 数据资源管理器中。

SQL DW(AKA Synapse SQL pool(是一个优秀的数据仓库,实现了现代数据仓库模式。ETL>精选数据模型> 通过分析服务或 Power BI 加载和服务。
ADX 用于实时分析,支持对新鲜到几秒钟前的数据应用读取时架构 (SOR(。

在替换用于日志、时序数据库等的基于 SOLR/Lucine 的变体时,请考虑将 ADX 视为完全托管的平台。

在大型工作负载中试用它,您会发现它比替代方案便宜得多,并且功能更强大,性能更高。

如果您需要帮助,请与我联系。

Azure 数据资源管理器别名 Kusto 专注于大量数据引入以及几乎实时的查询和分析。它是Microsoft发明的,用于日志和遥测分析,但可用于其他目的,例如物联网、传感器数据或网络分析。Azure 内部服务(如 Azure Monitor 和 Log Analytics(也使用相同的技术。

类似的功能可以建立在Synapse或Databricks或HDInsight上,但我认为这些工具适合更广泛的用例。ADX 的焦点相当窄。ADX 确实支持查询 ("KQL"(,但对 SQL 的支持非常有限。它适用于仅附加数据,不适用于更新。它不是数据仓库、数据库或数据湖。

Microsoft材料是指名为 Kusto 的 ADX 背后的技术。有关此内容的更多信息,请访问 https://learn.microsoft.com/en-us/azure/data-explorer/kusto/concepts/。在这篇博文中可以找到一个很好的服务比较:https://vincentlauzon.com/2020/02/19/azure-data-explorer-kusto

最新更新