我正试图为非常大量的时间序列数据在一个狭窄的格式中找到一个合适的数据质量框架。
图像数十亿行数据看起来有点像这样:
传感器 | 时间戳 | 值 | 12251 | 12 | B
---|---|---|
12262 | "A" | |
12261 | 13 | |
12271 | 13 | |
12273 | 5.4545 |
您试过github.com/canimus/cuallee
吗它是一个开源框架,支持Observation API对数十亿条记录进行测试,速度超快,并且不像pydeequ那样占用资源。直观,易于使用。