我有一个数据集,它有 2 个特征和 10000 个样本。我想将这两个功能转换(集成(为一个功能,以便进一步分析。所以我想使用特征提取方法。由于两个特征之间的关系不是线性的,我想使用传统PCA以外的方法。
由于样本的数量比特征的数量大得多,我认为自动编码器是特征提取的好方法。但是输入特征只有2,那么自动编码器的形状将只有2-1-2,这是一个线性提取。
是否可以设置隐藏节点超过输入数量并进行堆叠自动编码器,例如 2-16-8-1-8-16-2 节点?
另外,使用自动编码器进行这种数据集成是一个不错的选择吗?如果没有,有没有更好的解决方案?
为什么这会是线性提取?如果在隐藏层和输出层中使用任何不规则性,则会在它们之间获得非线性关系。您的编码本质上是 sigmoid(Ax + b(。
如果你真的想让你的网络更复杂,我建议在单个神经元层之前使用多个 2 个神经元层。所以像这样的东西 2 - 2 - 2 - 1 - 2 - 2 - 2 节点。我看不出有什么理由需要把它变大。