面向窄数据的Spark兼容数据质量框架



我正试图为非常大量的时间序列数据在一个狭窄的格式中找到一个合适的数据质量框架。

图像数十亿行数据看起来有点像这样:

tbody> <<tr>BC
传感器 时间戳
1225112
12262"A"
1226113
1227113
122735.4545

您试过github.com/canimus/cuallee吗它是一个开源框架,支持Observation API对数十亿条记录进行测试,速度超快,并且不像pydeequ那样占用资源。直观,易于使用。

最新更新