阅读apachespark数据帧中的pdf文件



我们可以使用以下代码读取avro文件,

val df = spark.read.format("com.databricks.spark.avro").load(path)

是否可以使用Spark数据帧读取pdf文件?

您不能读取pdf并存储在df中,因为它不会中断数据帧的列(基本上它没有标准架构(,所以如果您想从pdf中获取一些数据,请先将其转换为csv或parquet,然后从该文件中读取,然后创建一个数据帧,因为它有一个定义的架构

访问本gitbook,了解更多关于可用读取格式的信息,您可以使用这些格式来获得数据帧

DataFrameReader—从外部数据源加载数据

最新更新