有哪些方法可以弄清楚为什么你的神经网络会这样分类你的数据?



我有几次机会写一篇论文,或者是关于我所做的一些神经网络的论文。

我想知道是否有办法弄清楚为什么神经网络对我所拥有的数据进行分类。比如,神经网络使用数据的哪些特征来对数据进行分类。我使用的神经网络主要由ltsm层组成。

我想过在所有输出中绘制神经网络,但这并没有多大帮助。因为层中的每个节点都有很多权重,所以很难确定发生了什么。我可以画出偏差,但我不知道它们对权重的影响有多大。

我考虑的另一件事是每次调整一点输入数据的值,看看分类在哪里发生了变化。这在某种程度上是可行的,但不能让我全面了解神经网络在做什么。

有什么建议吗?

我最终使用了TorchRay的Guided backprop。https://facebookresearch.github.io/TorchRay/attribution.html module-torchray.attribution.guided_backprop

最新更新