有没有另一种类似的方法来用于 sparks.read.format.load outisde of databricks



我正在尝试将avro文件加载到sparks数据帧中,以便我可以将其转换为熊猫并最终转换为字典。我想使用的方法:

df = spark.read.format("avro").load(avro_file_in_memory)

(注意:我尝试加载到数据帧中的 avro 文件数据已经在内存中,作为来自 python 请求的请求响应的响应(

但是,此函数使用数据砖环境原生的火花,我没有在其中工作(我在pyspark中查找了类似的函数/代码,但自己看不到任何东西(。

是否有任何类似的函数可以在数据砖之外使用来产生相同的结果?

Databricks库是开源的,但实际上是在2.4中添加到核心Spark中(尽管仍然是一个外部库(

无论如何,有一个原生的avro Python库,以及fastavro,所以我不完全确定你是否要启动一个JVM(因为你正在使用Spark(,只是为了将Avro数据加载到字典中。除此之外,一个Avro文件由多个记录组成,所以它至少是一个字典列表

基本上,我认为您最好使用上一个问题中的方法,但从将 Avro 数据写入磁盘开始,因为这似乎是您当前的问题

否则,也许多搜索一下您正在寻找的内容可以解决您遇到的这个 XY 问题

https://github.com/ynqa/pandavro

相关内容

最新更新