TensorFlow学习算法是如何工作的



我正在努力了解TensorFlow使用的学习算法是如何工作的。

我过去读过关于这些方法的论文(几年前的今天,很抱歉我的术语不好(,他们似乎声称能够区分人工智能权重和偏差中每个值的损失函数。这将告诉学习算法将AI的参数向哪个方向移动以减少损失。

为了区分AI相对于损失函数的参数,学习算法首先需要生成一个描述这种关系的方程。我的问题是:这个方程式是如何产生的?

当训练具有单个隐藏层(具有$m$隐藏节点(的密集网络进行二进制分类时,我们最小化成本函数

$$L(W_1,W_2(=\sum_{i=1}^N\ell(y_i,\sigma(W_2 a(W_1\hat x_i((,$$

其中$x_i\in\mathbb R^d$是训练数据集中的第$i$个特征向量,$\hat x_i\in \mathbb R ^{d+1}$是通过将$1$前置到$x_i$而获得的增广特征向量,$W_1$是包含隐藏层的权重和偏差的$m\times(d+1($矩阵,$a$是将ReLU激活函数应用于其每个输入的函数(还具有等于$1$的附加输出(,$W_2$是包含输出层的权重和偏差的$1\times m$矩阵。这里$\sigma$是逻辑函数,$\ell$是二进制交叉熵损失函数。

编辑:mathjax在这个网站上不起作用吗?

最新更新