在拆分数据集时,为什么人们遵循命名约定?


X_train, X_test, y_train, y_test = 
train_test_split(X, y, test_size=0.30, random_state=1)

在此示例中,(X_train, X_test)X大写形式提及,其中(y_train, y_test)这里y小写字母提及。

是否有任何令人信服的理由遵循该命名约定?

这源于您有多个特征(输入(和一个响应变量(输出(的情况。然后,输入X是包含number_of_features列和number_of_samples行的矩阵,输出y是包含number_of_samples元素的列向量。遵循数学和/或相关领域广泛使用的用大写字母命名矩阵和用小写字母命名向量的惯例,X必须是大写的,y必须是小写的,这是有道理的。

如果您只有一个特征,因此输入是列向量而不是矩阵,则x应该是小写的。如果你有多个响应变量,并且输出是一个矩阵,那么Y应该是大写的。

最后,使用比Xy更具描述性的名称始终是一个好主意。然后,遵循 PEP 8 约定 uf 对变量名称使用 snake_case - 或者您遵循的样式指南建议的任何内容 - 是要走的路。

最新更新