我们可以使用以下代码读取avro文件,
val df = spark.read.format("com.databricks.spark.avro").load(path)
是否可以使用Spark数据帧读取pdf文件?
您不能读取pdf并存储在df中,因为它不会中断数据帧的列(基本上它没有标准架构(,所以如果您想从pdf中获取一些数据,请先将其转换为csv或parquet,然后从该文件中读取,然后创建一个数据帧,因为它有一个定义的架构
访问本gitbook,了解更多关于可用读取格式的信息,您可以使用这些格式来获得数据帧
DataFrameReader—从外部数据源加载数据