TensorFlow学习算法是如何工作的

我正在努力了解TensorFlow使用的学习算法是如何工作的。

我过去读过关于这些方法的论文(几年前的今天，很抱歉我的术语不好(，他们似乎声称能够区分人工智能权重和偏差中每个值的损失函数。这将告诉学习算法将AI的参数向哪个方向移动以减少损失。

为了区分AI相对于损失函数的参数，学习算法首先需要生成一个描述这种关系的方程。我的问题是：这个方程式是如何产生的？

当训练具有单个隐藏层(具有$m$隐藏节点(的密集网络进行二进制分类时，我们最小化成本函数

$$L(W_1，W_2(=\sum_｛i=1｝^N\ell(y_i，\sigma(W_2 a(W_1\hat x_i((，$$

其中$x_i\in\mathbb R^d$是训练数据集中的第$i$个特征向量，$\hat x_i\in \mathbb R ^｛d+1｝$是通过将$1$前置到$x_i$而获得的增广特征向量，$W_1$是包含隐藏层的权重和偏差的$m\times(d+1($矩阵，$a$是将ReLU激活函数应用于其每个输入的函数(还具有等于$1$的附加输出(，$W_2$是包含输出层的权重和偏差的$1\times m$矩阵。这里$\sigma$是逻辑函数，$\ell$是二进制交叉熵损失函数。

编辑：mathjax在这个网站上不起作用吗？

相关内容

最新更新

热门标签：