Spark 二进制数据源与 sc.binaryFiles



Spark 3.0 允许使用新的数据源读取二进制数据:

val df = spark.read.format(“binaryFile”).load("/path/to/data")

使用以前的 Spark 版本,您可以使用以下方法对数据进行云加载:

val rdd = sc.binaryFiles("/path/to/data")

除了可以选择使用高级 API 访问二进制数据 (Dataset( 之外,Spark 3.0 是否还引入了此功能的任何其他好处或功能?

我认为除了开发人员使用高级 API(数据帧/数据集(比低级 (RDD( 更好地控制数据之外,没有任何额外的好处,而且他们不需要担心性能,因为它本身由高级 API 很好地优化/管理。

参考- https://spark.apache.org/docs/3.0.0-preview/sql-data-sources-binaryFile.html

附言 - 我确实认为我的答案不符合正式答案的条件。我之前只想将其添加为评论,但无法这样做,因为我还没有获得评论的特权。:)

最新更新