使用Spark或Scala在表格中删除具有十亿条记录的表中的记录



我们在Azure Data Warehouse中有一个具有170亿个记录的表。现在,我们有一个场景,必须根据某些条件从该表中删除记录。我们正在用Azure Databricks笔记本编写Scara语言Spark。

我们搜索了在Spark中执行此操作的不同选项,但所有建议都建议先阅读整个表格,从此删除记录,然后在数据仓库中覆盖整个表。但是,由于我们表中的记录大量记录,这种方法将无法使用。

您可以建议我们如何使用Spark/Scala?

实现此功能吗?

1(检查是否可以通过Azure Databricks中的Spark/Scala代码调用存储过程,但Spark不支持存储过程。

2(尝试先阅读整个表以删除记录,但它进入了永无止境的循环。

可以根据您的要求使用Select子句创建视图,然后使用View

来创建视图

相关内容

  • 没有找到相关文章