对于 HDInsight 群集,必须至少有一个 Azure 存储帐户,该帐户是其默认存储帐户 - 这是必需的,以便将其视为其 fs(文件系统)。我明白了。但是,可选链接的 Azure 存储帐户呢?至少从 ADF(Azure 数据工厂)的角度来看,是否需要将存储帐户作为链接存储帐户添加到 HDInsight 群集?无论如何,只需提供帐户名称和密钥---两条信息即可访问 Azure 存储帐户。这两项都在 ADF 的链接服务器中指定。这保证了存储帐户的访问。从 ADF 角度或其他角度将某些帐户添加为链接存储帐户的真正好处是什么?基本上,我要问的是 - 如果不将帐户添加为给定 HDInsight 群集的链接存储,我们就不能纯粹使用帐户名称和密钥做什么?
拥有其他帐户的主要原因是因为它们有限制。一个存储帐户可以包含 500 TB 的数据和每秒 20000 个请求。 根据群集的大小和工作负载,您可能会达到请求限制。如果你担心这些限制,并且不想管理大量存储帐户,则应查看 Azure 数据湖。
我有点想出了答案。使用链接存储帐户,群集在用作计算时可以直接访问这些存储帐户上的 BLOB,而无需我们在查询中单独指定存储密钥。这是链接存储是必须具备的用例。