我有一个月的数据,形式为:
timestamp duration
0 2015-10-01 00:00:08 2912.0
1 2015-10-01 00:48:58 30.0
2 2015-10-01 00:49:58 229.0
3 2015-10-01 00:54:07 4122.0
4 2015-10-01 02:03:19 0.0
...
我希望使用 scikit-learn 库中的 DBSCAN 根据"HH:MM:SS"中的一天中的时间"和"持续时间"维度执行聚类,
我知道在使用聚类之前需要一个预处理步骤,但我不知道该使用哪一个!
如果有人能指出我正确的方向,将不胜感激。
谢谢!
这里有一个虚拟的答案:我遇到类似的分类问题。分类算法与按结果进行聚类算法没有太大区别,因为目标是按相似的模式对它们进行分组。
你可以谷歌"混合数据分类的预处理技术"或类似的东西。
主要思想是将时间戳转换为"分类变量"并在以后将它们二值化,因此您将得到年份:1,0,1,1,1等,月份:1,0,0,0,0,0,0,0,...(1 月份有 12 个变量),...或者你也可以把月份分成季节,这样你就会有4个季节,等等。但是,您需要了解与预期输出真正相关的内容。即 4 个自变量。
希望对您有所帮助!