我需要对时间戳、持续时间数据进行哪些预处理方法才能与 DBSCAN 一起使用



我有一个月的数据,形式为:


            timestamp  duration
0 2015-10-01 00:00:08    2912.0
1 2015-10-01 00:48:58      30.0
2 2015-10-01 00:49:58     229.0
3 2015-10-01 00:54:07    4122.0
4 2015-10-01 02:03:19       0.0
...

我希望使用 scikit-learn 库中的 DBSCAN 根据"HH:MM:SS"中的一天中的时间"和"持续时间"维度执行聚类,

我知道在使用聚类之前需要一个预处理步骤,但我不知道该使用哪一个!

如果有人能指出我正确的方向,将不胜感激。

谢谢!

这里有一个虚拟的答案:我遇到类似的分类问题。分类算法与按结果进行聚类算法没有太大区别,因为目标是按相似的模式对它们进行分组。

你可以谷歌"混合数据分类的预处理技术"或类似的东西。

主要思想是将时间戳转换为"分类变量"并在以后将它们二值化,因此您将得到年份:1,0,1,1,1等,月份:1,0,0,0,0,0,0,0,...(1 月份有 12 个变量),...或者你也可以把月份分成季节,这样你就会有4个季节,等等。但是,您需要了解与预期输出真正相关的内容。即 4 个自变量。

希望对您有所帮助!

相关内容

  • 没有找到相关文章

最新更新