Spark 二进制数据源与 sc.binaryFiles

Spark 3.0 允许使用新的数据源读取二进制数据：

val df = spark.read.format(“binaryFile”).load("/path/to/data")

使用以前的 Spark 版本，您可以使用以下方法对数据进行云加载：

val rdd = sc.binaryFiles("/path/to/data")

除了可以选择使用高级 API 访问二进制数据 (Dataset( 之外，Spark 3.0 是否还引入了此功能的任何其他好处或功能？

我认为除了开发人员使用高级 API(数据帧/数据集(比低级 (RDD( 更好地控制数据之外，没有任何额外的好处，而且他们不需要担心性能，因为它本身由高级 API 很好地优化/管理。

参考- https://spark.apache.org/docs/3.0.0-preview/sql-data-sources-binaryFile.html

附言 - 我确实认为我的答案不符合正式答案的条件。我之前只想将其添加为评论，但无法这样做，因为我还没有获得评论的特权。:)

相关内容