我们在Azure Data Warehouse中有一个具有170亿个记录的表。现在,我们有一个场景,必须根据某些条件从该表中删除记录。我们正在用Azure Databricks笔记本编写Scara语言Spark。
我们搜索了在Spark中执行此操作的不同选项,但所有建议都建议先阅读整个表格,从此删除记录,然后在数据仓库中覆盖整个表。但是,由于我们表中的记录大量记录,这种方法将无法使用。
您可以建议我们如何使用Spark/Scala?
实现此功能吗?1(检查是否可以通过Azure Databricks中的Spark/Scala代码调用存储过程,但Spark不支持存储过程。
2(尝试先阅读整个表以删除记录,但它进入了永无止境的循环。
可以根据您的要求使用Select子句创建视图,然后使用View