通过将Deequ与Scala一起使用来计算指标



我是ScalaAmazon Deequ的新手。我被要求编写一个Scala代码来计算指标(例如CompletenessCountDistinct等(对约束使用Deequ存储在S3上的源csv文件,并将生成的指标加载到Glue表中,该表将进一步用于报告。

任何人都可以帮助我指出正确的在线资源方向,以帮助我实现这一目标?我对ScalaDeequ都是新手.那么谁能给我一个示例Scala代码并解释如何使用deequ库等?

如果需要其他信息来更好地解释我的问题,请告诉我。

感谢您对Deequ的关注。deequ 的 github 页面有关于如何开始使用它的信息:https://github.com/awslabs/deequ

此外,AWS博客上还有一篇博客文章,其中包含一些示例:https://aws.amazon.com/blogs/big-data/test-data-quality-at-scale-with-deequ/

最好 塞巴斯蒂安

您可以查看此处提供的示例:https://github.com/awslabs/deequ/tree/master/src/main/scala/com/amazon/deequ/examples

希望有帮助。

也花一些时间阅读文档。

相关内容

  • 没有找到相关文章

最新更新