小贝子编程

如何在 PySpark 中编写增量表时使用 Zorder 聚类

本文关键字：聚类 Zorder PySpark apache-spark pyspark apache-spark-sql databricks
更新时间 : 2023-09-08
英文 : How to use Zorder clustering when writing delta table within PySpark?

我正在尝试按照我在 https://databricks.com/blog/2018/07/31/processing-petabytes-of-data-in-seconds-with-databricks-delta.html 中看到的建议编写一个非常大的 PySpark 数据帧

但是，此页面显示了Scala中的建议，我不知道如何将其转换为PySpark

。

我看到这样的 Scala 代码：

spark.read.table(connRandom)
     .write.format("delta").saveAsTable(connZorder)
sql(s"OPTIMIZE $connZorder ZORDER BY (src_ip, src_port, dst_ip, dst_port)")

但是我怎样才能做相当于第二行的事情，比如在 PySpark 中的特定列"my_col"上对 zorder 集群？

第二行是 Scala 给出的 SQL 命令。你可以在python中用spark.sql("OPTIMIZE tableName ZORDER BY (my_col)")做同样的事情。

另请查看文档，它有一个完整的 PySpark 笔记本示例。

如何在 PySpark 中编写增量表时使用 Zorder 聚类

相关内容

最新更新

热门标签：