逻辑回归成本函数返回nan

我最近学习了逻辑回归，我想练习一下。我目前正在使用kaggle的这个数据集。我试图以这种方式定义成本函数(我进行了所有必要的导入(：

# Defining the hypothesis
sigmoid = lambda x: 1 / (1 + np.exp(-x))
predict = lambda trainset, parameters: sigmoid(trainset @ parameters)
# Defining the cost
def cost(theta):
#print(X.shape, y.shape, theta.shape)
preds = predict(X, theta.T)
errors = (-y * np.log(preds)) - ((1-y)*np.log(1-preds))
return np.mean(errors)
theta = []
for i in range(13):
theta.append(1)
theta = np.array([theta])
cost(theta)

当我运行这个单元格时，我得到：

/opt/venv/lib/python3.7/site-packages/ipykernel_launcher.py:9: RuntimeWarning: divide by zero encountered in log
if __name__ == '__main__':
/opt/venv/lib/python3.7/site-packages/ipykernel_launcher.py:9: RuntimeWarning: invalid value encountered in multiply
if __name__ == '__main__':
nan

当我在网上搜索时，我得到了将数据正常化然后尝试的建议。所以我就是这样做的：

df = pd.read_csv("/home/jovyan/work/heart.csv")
df.head()
# The dataset is 303x14 in size (using df.shape)
length = df.shape[0]
# Output vector
y = df['target'].values
y = np.array([y]).T
# We name trainingset as X for convenience
trainingset = df.drop(['target'], axis = 1)
#trainingset = df.insert(0, 'bias', 1)
minmax_normal_trainset = (trainingset - trainingset.min())/(trainingset.max() - trainingset.min())
X = trainingset.values

我真的不知道除以零的错误发生在哪里，也不知道如何修复。如果我在这个实现中犯了任何错误，请纠正我。如果以前有人问过我，我很抱歉，但我能找到的只是使数据正常化的提示。提前感谢！

np.log(0)引发divide by zero错误。因此，正是这一部分造成了问题：

errors = (-y * np.log(preds)) - ((1 - y) * np.log(1 - preds))
##############              #################

当x的绝对值大于709时，preds可以是0或1(因为浮点数学，至少在我的机器上是这样(，这就是为什么将x归一化为0和1可以解决问题的原因。

编辑：

您可能希望归一化到比(0, 1)更大的范围——您当前设置的sigmoid函数在该范围内几乎是线性的。可能使用：

minmax_normal_trainset = c * (trainingset - trainingset.mean())/(trainingset.stdev())

并调整c以获得更好的收敛性。

相关内容

最新更新

热门标签：