好的,所以我有一个数据库表,记录两种不同类型的事件,似乎是相互关联的。它记录了事件发生的日期和时间,它是哪种类型的事件,最后是事件的描述。
表中有四列-
日期、时间、类型和描述。
因此,对于表中两种不同类型的记录,我想找出1个或多个特定的Type-1事件是否具有创建特定的Type-2事件的效果。
在某个类型1事件发生和它引起某个类型2事件之间肯定存在时间延迟。所以我从时间延迟作为一个变量开始,设置为3小时。
我还隔离了我认为是由类型1事件引起的类型2事件。例如,我们称之为Type-2F。
我最初的想法是在表上执行第一次查询,列出所有Type-1事件,然后执行第二次查询,仅列出Type-2F事件的发生情况。
那么我将:
- 迭代到第一个Type-2F事件,并记录日期和时间。
- 然后逐个遍历所有Type-1事件,将日期和时间与第一个Type-2F事件进行比较,如果Type-1事件发生在Type-2F事件之前的3小时内,则为该特定Type-1事件加1分。
- 然后迭代到第二个Type-2F事件,重复点2的过程。
- 直到所有Type-2F事件都被迭代通过(对于每个Type-2F事件,所有Type-1事件依次迭代通过),并将+1分数分配给特定的Type-1事件。 然后回顾所有类型1事件的列表,并查看所有没有获得+1分数的事件,并给它们一个-1分数,因为它们显然没有在3小时内创建类型2f事件的效果。
最后,我将所有特定类型-1事件的+1和-1分数加起来,假设有26种类型-1事件,每种事件在表中出现很多次,那么我将得到一个分数板,其中最高的数字意味着它们最有可能导致类型- 2f事件。
例如:Type-1K = +125 | Type-1B = +56 | Type-1Z = +13 | Type-1T = -35等…
因此,从这个结果来看,我认为Type-1K事件最有可能导致Type-2F事件(在3小时限制内)。
我知道这是非常简单的数学,但这听起来像一个合理的方法吗?
许多谢谢。你实际上是偶然进入了一个完整的数学和科学领域,在这个领域,人们以辨别这些类型问题的特定子集背后的真相和可能性为全职工作。例如,在生物系统中,你会找生物统计学或生物信息学的人。根据你试图展示的内容和你对自己的答案有多大的信心,你可能完全遗漏了调查的重要方面,例如,相关性、关系和因果关系之间的区别。
我不确定你会在一个堆栈交换网站上得到一个足够有洞察力的答案,但无论如何,这不是一个统计问题的正确网站。你可以试试math.stackexchange.com