不建议使用神经网络的数据集

我的问题基本上是：在学习问题中，是否存在不建议使用神经网络的数据集？这些数据集的一些流行特征是什么？

我问的原因是：在一些文章中，已经证明了神经网络可以学习任何函数。但是，所有的数据集都代表一个函数吗？如果他们没有资格这样做；不合格数据集的性质是什么？

在我的研究中，我很难找到一个好的架构和参数组合。我对数据集本身持怀疑态度。因为我看到以下模式

      Input1 Input2目标0.8 0.6 0.30.8 0.6 0.30.8 0.6 0.00.8 0.6 0.1

作为一个人，我不能通过观察输入来预测目标，我预计神经网络也不会准确预测。因此，对于这种情况，可能建议采取其他方法。

只要你不能说出什么是真正的值，就没有确切的答案。或者更具体地说，有一个真正的价值。

然而，有两种情况非常常见，可能会产生这样的数据。

1.）噪声输出假设您观察到的数据来自函数

 f(x,y) = g(x,y) + N(0,0.1)

在g(x,y)给出唯一值的情况下，函数中添加了正态分布噪声。如果你有足够的训练日期，你的NN将慢慢收敛到正确的值。即使噪声不是正态分布训练也可以自适应

2.）没有唯一的真值还有另一种情况可以想象。没有唯一的真正价值。考虑到训练数据，我作为一个人会学习。在0.5的情况下，f(0.8,0.6)=0.3的结果等等。神经网络也能够学习这些函数。

什么是神经网络不能学习的。机器学习中有一些假设可能无法学习。例如，如果你的数据不独立，那将是一个大问题。因此，如果你的训练数据中有独立于输入的目标，那么模式0.3,0.3,0.0,0.1,0.3,0.3,0.0,0.1,....的学习将是困难的。

一般来说，你需要能够制定出你想学的东西。这通常是根据目标函数来完成的否则，您永远无法确定网络学习到了什么（c.f.，无免费午餐定理）

在算法实现和调优之前，也许第一件事应该是查看data quality。有一篇非常好的参考论文（其中一篇），我希望它能帮助

Goodchild，Michael F.和Keith C.Clarke。"海量数据集中的数据质量"。海量数据集手册。施普林格美国，2002年。643-659.

相关内容