数据提取是否需要加盖时间戳?



我应该为数据提取添加时间戳吗?

一些同事和我在python服务器上一起工作,以解决与数据科学相关的问题。我编写了一些函数来从源数据库中提取数据并将其保存到 python 服务器进行进一步处理。现在我正在纠结是否应该使用时间戳保存数据提取,结果是每次启动管道时都会保存另一个数据提取或省略时间戳并覆盖旧数据提取。我读了很多关于不需要与代码相同的版本控制的数据,我真的不想用多个大量冗余的数据提取来混淆服务器。

使用时间戳保存数据提取,结果是每次我启动管道时都会保存另一个数据提取或省略时间戳并覆盖旧数据提取。

功能随时间的变化对数据科学相关问题是否重要?

  • 如果随着时间的推移衡量,您有任何指标可以讲述一个故事吗?
  • 也许您可以存储自上次数据拉取以来的增量,而不是冗余功能(功能工程师在不同的表上(。

只是几个想法。祝你好运:)

最新更新