组和亚组关系的最佳关系设计



我有一些介绍级别的关系数据库设计问题。我正在研究一个项目,在该项目中,我正在捕获科学期刊文章中的信息,并将其存储在Postgres数据库中。我的主要目标之一是定义一个足够灵活的架构,可以涵盖我在大量论文中可能遇到的大多数案例。实际上,文章倾向于报告一组半标准的细节,但是一旦您介绍了细节,肯定会有差异。这些东西是为人类而不是机器编写的。

在大多数情况下,定义模式非常简单,但是我坚持的一件事是如何明智地构建一组表以捕获有关研究主题组和受试者子集的细节。

以一个简单的随机对照试验为例 - 您通常有一组被鉴定为筛选资格的人,确定符合条件的集合,将一组随机分为对照组,并将一组随机分为治疗组。在每个组中,您可以使用各种特定方式定义的子组,但通常是通过某种间隔(例如26-32岁)或类别(例如怀孕/未怀孕)的子组。

当前,我已经设置了此此操作,以便Study记录可以具有许多Subject记录,并且Subject记录可以具有许多Interval_Subgroup记录和许多Categorical_Subgroup记录。

Subject
-----------------------------------------
id | groupType  | measure | value | study
-----------------------------------------
13 |  treatment |  count  |  578  |  17
14 |   control  |  count  |  552  |  17
Interval_Subgroup
---------------------------------------------------------------
id | factor | factorMin | factorMax | measure | value | subject
---------------------------------------------------------------
41 |  age   |     18    |     24    |  count  |  125  |   13   
42 |  age   |     25    |     32    |  count  |  204  |   13   
Categorical_Subgroup
-----------------------------------------------------
id | factor | factorValue | measure | value | subject
-----------------------------------------------------
74 |  sex   |     male    |  count  |  251  |   13   
75 |  sex   |    female   |  count  |  327  |   13   

这似乎是可行的,但是感觉很笨拙,因为我有两个表可以捕获相同类型的信息。这也是如此,因为它不允许我捕获18-24岁男性等亚组套装的任何组合。一些研究报告了这种细节,有些没有,但我希望能够捕获论文提供的任何亚组信息。

什么比我上面描述的更灵活的构造这些表更灵活?我正在试图勾勒出我认为这应该如何工作的方式,现在,我的主题组有许多子组和子组具有许多亚组定义。将只有一个表捕获有关子组的测量值,另一个用于定义每个亚组的表。我不确定这是否是正确的方向。也许有一个更简单的解决方案。

感谢您抽出宝贵的时间帮助 - 非常感谢!


编辑:固定ID在示例表中是唯一的。

从您的描述中听起来像是 factor thit ,并且每个subgroup都有一个或多个factor s。对我来说,这意味着factor需要自己的桌子。依次可以是interval类型或categorical的因素,这意味着单个表继承可能是按顺序进行的。

示例表可能看起来像这样:

subgroups
------------------------------
id | measure | value | subject
------------------------------
41 |  count  |  125  |   13   
42 |  count  |  204  |   13   
factors
id | type        | factor | category | interval_min | interval_max | subgroup
-----------------------------------------------------------------------------
68 | interval    | age    | NULL     | 18           | 24           | 13
69 | categorical | sex    | male     | NULL         | NULL         | 13

在此示例中,亚组41有两个因素,年龄18-24岁,性别男性。

也可能是STI在这里过大,在这种情况下,您将factor分为两个表categorical_factorsinterval_factors,并且一个子组可能具有零或许多。

据我所知,使用STI的复杂性主要取决于您正在使用的ORM。Rails/ActivereCord有良好的支持,其他框架各不相同。

希望有帮助!

最新更新