存储大型人口统计数据集的最佳方式



我需要在数据库中存储我为我的研究收集的大量人口统计数据。我正试图找出什么是一个很好的解决方案来存储数据,如:

http://factfinder2.census.gov/faces/tableservices/jsf/pages/productview.xhtml?pid=ACS_11_3YR_S0201& prodType =表

我的目标是以这样一种方式存储所有这些数据,以便我可以在需要时检索数据部分。我感兴趣的数据部分是数据的"性别和年龄"部分或"家庭按类型"部分。

我是设计数据库表之类的新手。在这方面有人能指点我吗?

澄清:

    我这里的问题不是数据太大。我遇到的问题是,我收集的数据非常多样化。我想知道我是否应该把它们分别放在不同的桌子上。我是否需要一张表用于"性别和年龄"类别,另一张表用于"家庭类型"类别?
  • 另一个问题是元数据信息。我需要知道分类这个数据集的来源等的信息。
  • 此时数据点本身可能不会达到数百万。我可能需要在州一级存储这些信息。我的首要任务是数据需要易于检索。在多个表中存储来自一个页面(如上面链接中的页面)的信息,将数据重新组合在一起是非常棘手的。而且要记住哪个表里有什么也不容易。

有其他人必须像这样存储数据吗?什么解决方案最适合你?

虽然,你的问题相当模糊,我猜"大",你的意思是几百万行。如果您的数据大小被限制在这样的数字,您可以简单地设计一个数据库并转储数据。由于您还为此目的标记OLAP,因此您可能对创建OLAP多维数据集或类似的东西感兴趣。你必须收集数据,可能是纯文本文件,CSV文件,excel文件或任何类似的文件。您还可以使用bcp导出/导入批量数据。请参考此链接。此外,您可以将这些数据转储到SQL Sever(或任何其他您喜欢的)。创建表,然后如果想创建OLAP多维数据集,创建维度表和事实表。创建OLAP多维数据集。每当需要与感兴趣的点相关的数据时,一定要浏览多维数据集。如果您只对数据检索感兴趣,那么您可以轻松地查询关系数据库。我希望这对编辑你的问题有帮助。

最新更新