我需要对时间戳、持续时间数据进行哪些预处理方法才能与 DBSCAN 一起使用

我有一个月的数据，形式为：


            timestamp  duration
0 2015-10-01 00:00:08    2912.0
1 2015-10-01 00:48:58      30.0
2 2015-10-01 00:49:58     229.0
3 2015-10-01 00:54:07    4122.0
4 2015-10-01 02:03:19       0.0
...

我希望使用 scikit-learn 库中的 DBSCAN 根据"HH：MM：SS"中的一天中的时间"和"持续时间"维度执行聚类，

我知道在使用聚类之前需要一个预处理步骤，但我不知道该使用哪一个！

如果有人能指出我正确的方向，将不胜感激。

谢谢！

这里有一个虚拟的答案：我遇到类似的分类问题。分类算法与按结果进行聚类算法没有太大区别，因为目标是按相似的模式对它们进行分组。

你可以谷歌"混合数据分类的预处理技术"或类似的东西。

主要思想是将时间戳转换为"分类变量"并在以后将它们二值化，因此您将得到年份：1,0,1,1,1等，月份：1,0,0,0,0,0,0,0,...（1 月份有 12 个变量）,...或者你也可以把月份分成季节，这样你就会有4个季节，等等。但是，您需要了解与预期输出真正相关的内容。即 4 个自变量。

希望对您有所帮助！

相关内容

最新更新

热门标签：