数据仓库中数据质量的算法



我正在寻找一个好的算法/方法来检查数据仓库中的数据质量。因此,我希望有一些算法"知道"值的可能结构,然后检查值是否属于该结构的成员,然后决定它们是否正确。

我想定义一个regexp和检查每个值是否适合。

这是一个好方法吗?有没有其他好的选择?(有研究论文吗?)

我看到一些作者建议添加一个称为数据质量维度的特殊维度来进一步描述每个可facttyrecord。

数据质量维度中的典型值可以是"正常值"、"越界值"、"不可能值"、"验证值"、"未验证值"one_answers"不确定值"。

我建议使用专用的数据质量工具,如DataCleaner (http://datacleaner.eobjects.org),我已经做了相当多的工作。

你需要一个工具,不仅检查严格的规则,如约束,但也会给你一个你的数据的配置文件,使你更容易探索和识别不一致的自己。例如,尝试"模式查找器",它将告诉您字符串值的模式-这通常会显示异常值和错误值。您还可以使用该工具通过转换值、从中提取信息或使用第三方服务来实际清理数据。祝您好运,提高您的数据质量!

最新更新