我想用必要的文献参考来定义数据仓库。
我在维基百科上发现了维基
DW是来自一个或多个不同来源的集成数据的中央存储库。它们将当前和历史数据存储在一个用于创建分析报告的单个位置整个企业的工人。
这是否意味着它总是数据仓库下面的关系数据库,或者它可以是任何类型的存储库?
在复杂数据仓库的体系结构框架中,数据仓库一词也用于复杂数据,即视频、图像等,但数据仓库一术语在该文中尚未定义。
"数据仓库"主要是一个信息系统概念,它描述了(例如公司/企业(数据的集中和可信来源。
来自维基百科:"DW是来自一个或多个不同来源的集成数据的中央存储库。它们将当前和历史数据存储在一个地方,用于为整个企业的员工创建分析报告。">
我认为金博尔集团是该主题最权威的来源之一,因为他们已经开发了20多年的框架和方法,他们也将该框架应用于不同的业务和技术领域,并分享了这方面的成果和结果。
Kimball的《数据仓库工具包》是该主题的参考书之一,它将数据仓库定义为"专门为查询和分析构建的交易数据的副本"。
Bill Inmon也被认为是数据仓库的先驱之一,他将数据仓库定义为"一种面向主题的、集成的、时变的和非易失性的数据收集,以支持管理层的决策过程">
数据仓库不必在关系数据库系统上实现,尽管在RDBMS或支持"可连接"表概念的不同数据库系统(例如Redshift、Presto、Hive(中实现Kimball的维度模型是非常常见的。
数据体系结构的最新补充是数据湖的概念,它可以完美地适应复杂的数据类型,它通常是一个数据存储,可以处理几乎任何类型的数据类型(例如S3、HDFS(,这些数据类型可以直接分析(例如S3上的XML文件上的MapReduce(,也可以处理成不同的格式或数据模型(如维度模型(。
根据您的评论编辑:
数据仓库和数据湖是服务于不同目的的独立系统,可以/应该是互补的,并且两者都是更大数据体系结构的一部分。数据湖,作为概念,可以只是数据仓库上维度模型的另一个数据源(尽管数据湖的技术实现允许直接查询原始数据(。
您可以将数据湖视为一个"着陆区",在这里,多个系统以"复杂/原始格式"转储数据,例如来自客户支持电话的MP3文件、来自web服务器的gzip日志。它的目的是为了历史目的,并进一步处理成一种可以轻松分析/报告的格式,例如从MP3文件中提取文本。
数据仓库还聚合来自不同系统的数据,但数据被建模为适合报告的格式(如维度模型(,其模型反映了业务/领域的流程和事务,并且通常是高度策划的。
想象一下这样的情况:如果你使用web服务器日志记录对在线商店的访问,你可以将gzip日志("交易数据"(保存在数据湖中,然后将数据处理成一个维度模型(像这样(,该模型将是"专为查询和分析而构建的交易数据的副本",因此业务用户可以在Excel或其他报告工具中轻松地进行浏览。