在给定数据流的情况下，使用机器学习来估计均匀发生的可能性

我有一个系统生成的数据流（例如3D位置），它看起来像：

（位置1，时间1）（位置2，时间2）（位置3，时间3）

我想使用机器学习技术从给定的数据流中估计（或检测）特定事件的可能性。我所做的：

（pos1，time1，NO）（Pos2，time2，Yes）（pos3，time3，NO）。。。（posK，timeK，是）

（pos1、Pos2、pos3、NO）（pos2、Pos3、pos4、NO）（pos3、Pos4、pos5、NO）。。。（posK-2、posK-1、posK、YES）…

我意识到"否"的出现要比"是"频繁得多。只是因为系统大部分处于空闲状态，而我没有任何事件。所以它影响了训练。

你能给我一些提示吗1）什么类型的机器学习模型最适合这个问题。2）目前，我正在对输出进行"是"或"否"分类，但我希望随时都有事件发生的概率。你建议哪种型号？

感谢

我认为实际上有两个问题：如何构建数据集，以及使用哪个预测器。

为了构建数据集，在i的某个时间点，请确保选择&ell发生在i之前的实例（您问题中的措辞使您似乎选择了包括i的实例）。不过，结果的标签应该是i处的标签。毕竟，你试图根据现在来预测未来，不是吗？根据现在来预测现在是相当容易的。

另一点是如何选择&ell，甚至是否选择单个&ell。请注意，如果您选择&ell；的多个不同值，则得到一个多元模型。

最后，你直接问的问题是使用哪个预测器。这太宽泛了，在不了解您的数据集（并使用它）的情况下无法回答。你可能想阅读关于偏差-方差权衡的文章，看看为什么有些问题没有"最佳"预测因子。

话虽如此，我建议你从逻辑回归开始，这是一个简单而稳健的分类器，也可以输出概率（正如你所问的）。

相关内容