在给定数据流的情况下,使用机器学习来估计均匀发生的可能性



我有一个系统生成的数据流(例如3D位置),它看起来像:

(位置1,时间1)(位置2,时间2)(位置3,时间3)

我想使用机器学习技术从给定的数据流中估计(或检测)特定事件的可能性。我所做的:

  1. 如果事件发生在每一帧,我会将每一帧的数据标记为YES,否则设置为NO

(pos1,time1,NO)(Pos2,time2,Yes)(pos3,time3,NO)。。。(posK,timeK,是)

  1. 通过给L连续帧设置窗口长度(如L)来训练模型,相应的标签由该窗口上最后一个元素的标签设置:

(pos1、Pos2、pos3、NO)(pos2、Pos3、pos4、NO)(pos3、Pos4、pos5、NO)。。。(posK-2、posK-1、posK、YES)…

  1. 最后,我用这一套训练了我的模型
  2. 对于测试,我连接L连续帧,并要求模型为这组数据找到相应的标签(例如YES或NO)

我意识到"否"的出现要比"是"频繁得多。只是因为系统大部分处于空闲状态,而我没有任何事件。所以它影响了训练。

你能给我一些提示吗1) 什么类型的机器学习模型最适合这个问题。2) 目前,我正在输出进行"是"或"否"分类,但我希望随时都有事件发生的概率。你建议哪种型号?

感谢

我认为实际上有两个问题:如何构建数据集,以及使用哪个预测器。

为了构建数据集,在i的某个时间点,请确保选择&ell发生在i之前的实例(您问题中的措辞使您似乎选择了包括i的实例)。不过,结果的标签应该是i处的标签。毕竟,你试图根据现在来预测未来,不是吗?根据现在来预测现在是相当容易的。

另一点是如何选择&ell,甚至是否选择单个&ell。请注意,如果您选择ℓ的多个不同值,则得到一个多元模型。

最后,你直接问的问题是使用哪个预测器。这太宽泛了,在不了解您的数据集(并使用它)的情况下无法回答。你可能想阅读关于偏差-方差权衡的文章,看看为什么有些问题没有"最佳"预测因子。

话虽如此,我建议你从逻辑回归开始,这是一个简单而稳健的分类器,也可以输出概率(正如你所问的)。

最新更新