我正在做一个项目,我想通过python脚本检测特征为标称或序数类型,而无需任何人为干预。这可能吗?
我是数据科学的新手。你的意见对我有帮助
像'Age'这样的列不表示标称或序数数据,而是表示数值数据。您可以使用
查找包含数值数据的所有列:numeric_cols = df._get_numeric_data().columns # numeric columns
cols = df.columns # all columns
假设非数字的列是标称的或序数的(例如性别),那么您可以找到这些列:
categorical_cols = list(set(cols) - set(numeric_cols))
如果要识别标称数据和有序数据,则需要为此定义一些方法。例如,如果您有服装尺寸的顺序数据(小、中、大),则必须首先定义一个固定的顺序。