Python无监督学习,用于预测新数据集中的序列



我正在使用python对数据进行建模。有人能帮我为一个案例选择正确的算法吗。

比方说,如果我想用混合运算集来预测运算的顺序。在过去,可能的序列有不同的组合,它们是不同的,因为还有其他异常值效应会改变这个序列。

对于每一个过程(有一百多个过程),我都有将近30-40个操作作为一个混合集。对于所有的过程,我都有这些操作的过去数据和它们的序列号。我堆栈的点,操作没有永久的顺序,它是由"进程特定的操作集"改变的。

示例数据:

过程1:过去的数据1:[123245,6590078456,…,45893]

过程1:过去的数据2:[123,6590024545678,…,45893]

[p.s.数组中的数字是操作代码]

我认为,我需要使用无监督学习来预测新操作集的序列。但我不知道我应该遵循哪种算法和什么样的路线图。

有什么帮助吗?

首先,你的问题措辞拙劣,不清楚你想预测什么:你想预测序列开头的其余部分吗?或者,给定一堆序列,你想从头开始生成一个最有可能的序列吗?

在任何情况下,由于您有实际数据序列的示例,它们可以用作训练样本,因此与无监督学习方法相比,监督学习方法将使您受益更多。你可以试着这样建模你的问题:给定一个输入序列X1,X2。。。,Xn,下面最有可能的元素是什么,Xn+1

这是一个有趣且富有挑战性的问题。在我的脑海中,这似乎类似于一段话中的单词预测,这是一个由word2Vec解决的问题。然而,我假设任何给定变量的可能值的范围都较小,所以你可能会发现这很有趣——这是对RNN序列预测的介绍。

最新更新