数据处理.如何使用在可变输入维度上工作的监督机器学习方法



所以基本上我要处理的是一个长度不等的训练和测试数据集(一堆数组),如下所示:

a: {true, [1,3, 4, 5, 5, 8 ,10 ,10]}
b: {true, [1,3, 25, 18 ,1 ,10]}
c: {false, [1, 8 ,10]}
d: {false, [1,3  ,10 ,10]}

我是机器学习领域的新手,我不知道如何使这些不等长的输入数组变为等长,从而可以轻松地利用现有的机器学习算法。。

目前我可以考虑使用最大公共序列来查找不同长度的输入数组之间的相似性。。

但基本上,在我得到LCS信息后,我如何将输入数组转换为等长数组。。?

我走对了吗?有人能帮我吗?

此类任务没有通用的解决方案。一切都取决于您的数据实际代表的内容。有几十种特征提取技术可以很好地处理各种长度的数据,但具体的选择取决于具体的任务。不存在,也不可能有一种使可变长度表示成为恒定长度表示的通用方法。LCS似乎是一种非常奇怪的方法,它应该给出非常错误的结果(至少在一般情况下,也许在这个特定的问题中它有意义)。如果是这种情况(LCS确实有意义),它将返回新表示的一个维度。这只是新矢量的一个功能。你需要更多的东西来应用任何合理的机器学习技术。

大多数ML算法需要固定的输入和输出。全卷积神经网络或递归神经网络可以在不同的输入和输出下工作。

但在您的情况下,我建议您只使用grt最大数组长度,并将零附加到项目少于最大的数组上。

最新更新