小贝子编程

使用Spark或Scala在表格中删除具有十亿条记录的表中的记录

我们在Azure Data Warehouse中有一个具有170亿个记录的表。现在，我们有一个场景，必须根据某些条件从该表中删除记录。我们正在用Azure Databricks笔记本编写Scara语言Spark。

我们搜索了在Spark中执行此操作的不同选项，但所有建议都建议先阅读整个表格，从此删除记录，然后在数据仓库中覆盖整个表。但是，由于我们表中的记录大量记录，这种方法将无法使用。

您可以建议我们如何使用Spark/Scala？

实现此功能吗？

1(检查是否可以通过Azure Databricks中的Spark/Scala代码调用存储过程，但Spark不支持存储过程。

2(尝试先阅读整个表以删除记录，但它进入了永无止境的循环。

可以根据您的要求使用Select子句创建视图，然后使用View

来创建视图

相关内容