Databricks助理实践考试问题31



谁能告诉我如何选择"C";是PracticeExam DataEngineerAssociate问题31的答案。

https://files.training.databricks.com/assessments/practice-exams/PracticeExam-DataEngineerAssociate.pdf?_ga=2.185796329.1103386439.1663221490-957565140.1661854848

问题31以下哪一个结构化流式查询正在执行从Bronze表的跳转去银桌?

A. (spark.table("sales")
.groupBy("store")
.agg(sum("sales"))
.writeStream
.option("checkpointLocation", checkpointPath)
.outputMode("complete")
.table("aggregatedSales")
)
B. (spark.table("sales")
.agg(sum("sales"),
sum("units"))
.writeStream
.option("checkpointLocation", checkpointPath)
.outputMode("complete")
.table("aggregatedSales")
)
C. (spark.table("sales")
.withColumn("avgPrice", col("sales") / col("units"))
.writeStream
.option("checkpointLocation", checkpointPath)
.outputMode("append")
.table("cleanedSales")
)
D. (spark.readStream.load(rawSalesLocation)
.writeStream
.option("checkpointLocation", checkpointPath)
.outputMode("append")
.table("uncleanedSales")
)
E. (spark.read.load(rawSalesLocation)
.writeStream
.option("checkpointLocation", checkpointPath)
.outputMode("append")
.table("uncleanedSales")
)

由于选项";C";包含平均函数,这不可能是正确的选项,因为根据我的理解,聚合是从Silver表到Gold表。

选项A和B是聚合(注意.agg函数的使用(

正如您所说,黄金表通常是聚合。

选项C实际上是而不是一个集合
.withColumn("avgPrice", col("sales") / col("units"))
创建一个具有单位平均价格(对于该行(的新列

由于选项C添加/细化了数据,并且没有减少数据,因此可以将其视为青铜到白银的转换。

EDIT:
选项D将原始数据加载到表中,但不执行任何细化,因此可以将其视为原始表或青铜表。

最新更新