X_train, X_test, y_train, y_test =
train_test_split(X, y, test_size=0.30, random_state=1)
在此示例中,(X_train, X_test)
X
大写形式提及,其中(y_train, y_test)
这里y
小写字母提及。
是否有任何令人信服的理由遵循该命名约定?
这源于您有多个特征(输入(和一个响应变量(输出(的情况。然后,输入X
是包含number_of_features
列和number_of_samples
行的矩阵,输出y
是包含number_of_samples
元素的列向量。遵循数学和/或相关领域广泛使用的用大写字母命名矩阵和用小写字母命名向量的惯例,X
必须是大写的,y
必须是小写的,这是有道理的。
如果您只有一个特征,因此输入是列向量而不是矩阵,则x
应该是小写的。如果你有多个响应变量,并且输出是一个矩阵,那么Y
应该是大写的。
最后,使用比X
和y
更具描述性的名称始终是一个好主意。然后,遵循 PEP 8 约定 uf 对变量名称使用 snake_case - 或者您遵循的样式指南建议的任何内容 - 是要走的路。