不建议使用神经网络的数据集



我的问题基本上是:在学习问题中,是否存在不建议使用神经网络的数据集?这些数据集的一些流行特征是什么?

我问的原因是:在一些文章中,已经证明了神经网络可以学习任何函数。但是,所有的数据集都代表一个函数吗?如果他们没有资格这样做;不合格数据集的性质是什么?

在我的研究中,我很难找到一个好的架构和参数组合。我对数据集本身持怀疑态度。因为我看到以下模式

      Input1 Input2目标0.8 0.6 0.30.8 0.6 0.30.8 0.6 0.00.8 0.6 0.1

作为一个人,我不能通过观察输入来预测目标,我预计神经网络也不会准确预测。因此,对于这种情况,可能建议采取其他方法。

只要你不能说出什么是真正的值,就没有确切的答案。或者更具体地说,有一个真正的价值。

然而,有两种情况非常常见,可能会产生这样的数据。

1.)噪声输出假设您观察到的数据来自函数

 f(x,y) = g(x,y) + N(0,0.1)

g(x,y)给出唯一值的情况下,函数中添加了正态分布噪声。如果你有足够的训练日期,你的NN将慢慢收敛到正确的值。即使噪声不是正态分布训练也可以自适应

2.)没有唯一的真值还有另一种情况可以想象。没有唯一的真正价值。考虑到训练数据,我作为一个人会学习。在0.5的情况下,f(0.8,0.6)=0.3的结果等等。神经网络也能够学习这些函数。

什么是神经网络不能学习的。机器学习中有一些假设可能无法学习。例如,如果你的数据不独立,那将是一个大问题。因此,如果你的训练数据中有独立于输入的目标,那么模式0.3,0.3,0.0,0.1,0.3,0.3,0.0,0.1,....的学习将是困难的。

一般来说,你需要能够制定出你想学的东西。这通常是根据目标函数来完成的否则,您永远无法确定网络学习到了什么(c.f.,无免费午餐定理

在算法实现和调优之前,也许第一件事应该是查看data quality。有一篇非常好的参考论文(其中一篇),我希望它能帮助

Goodchild,Michael F.和Keith C.Clarke。"海量数据集中的数据质量"。海量数据集手册。施普林格美国,2002年。643-659.

最新更新