我是机器学习/数据科学的初学者。我准备了一个数据集,它包括部分分类列、日期时间对象和数字列。目标是一个多类项目(约6个类(。我正在使用Jupyter Notebook和Python。
到目前为止,我已经尝试了一个简单的例子,比如使用SVM学习器:https://www.geeksforgeeks.org/multiclass-classification-using-scikit-learn/
如何处理不同的数据类型?有没有一个分类器可以很好地处理所有类型?对于日期时间对象,我的想法是将它们更改为零后的分钟(1972年?(。那么我就只有分类和数字数据了。
请帮我解决
分类列-一个热编码或一个响应编码。日期时间对象-是的,你是对的,而不是几分钟到一年(取决于你有多旧的数据。(无论如何,你将进行归一化,这并不重要,但对于你提到的1972年的旧数据,如果需要功能重要性,它可以帮助你在几年内更好地可视化。此外,你可以进行1972-1982年等年份的装箱,看看什么最适合你。大多数时候,它是特定于问题的。数字数据-你不需要做任何事情。最终,你必须将你的特征转换为数字,这样任何机器学习算法都可以工作。希望这能回答你的问题。
对于分类特征,您需要对其进行标签编码,以便您的机器能够理解它。(1972年(如果您的特征中有类似的内容,则首先需要从所有数据中删除年份。