我是Scala
和Amazon Deequ
的新手。我被要求编写一个Scala
代码来计算指标(例如Completeness
、CountDistinct
等(对约束使用Deequ
存储在S3
上的源csv
文件,并将生成的指标加载到Glue表中,该表将进一步用于报告。
任何人都可以帮助我指出正确的在线资源方向,以帮助我实现这一目标?我对Scala
和Deequ
都是新手.那么谁能给我一个示例Scala
代码并解释如何使用deequ
库等?
如果需要其他信息来更好地解释我的问题,请告诉我。
感谢您对Deequ的关注。deequ 的 github 页面有关于如何开始使用它的信息:https://github.com/awslabs/deequ
此外,AWS博客上还有一篇博客文章,其中包含一些示例:https://aws.amazon.com/blogs/big-data/test-data-quality-at-scale-with-deequ/
最好 塞巴斯蒂安
您可以查看此处提供的示例:https://github.com/awslabs/deequ/tree/master/src/main/scala/com/amazon/deequ/examples
希望有帮助。
也花一些时间阅读文档。