处理复合物加入大数据



OLTP系统已归一化,并包含数百个表。在设计报告时,我们可能需要加入很多表。例如,我需要加入四到五个表,以便获得客户的电子邮件地址。(感谢我们使用的电信模型)

我正在尝试在HDFS(或S3)中设计一个数据仓库。

为了将Emaill地址和自定义ID写入Hive的表:我需要使用SQOOP导入命令将五个表中的整个数据提取到HDF中。然后,我需要在Hive中加入这些桌子。因此,此过程可能会持续很长时间以获取电子邮件信息。

或我可以使用SQOOP查询命令导入数据。这似乎更容易,并且将在HDF中占用更少的空间,但是在这种情况下,查询执行时间至关重要。

在类似情况下,您的选择是什么?您有其他方法吗?

谢谢

您应该考虑规范模式。例如。导入您可能需要使用SQOOP的所有表格,准备一个ETL过程,该过程将其符合为星模架并使用不符合的新模式进行查询。

例如。您应该瞄准一个"客户"表,其中电子邮件只是字段之一。

最新更新