如何使用pyspark获取pandas数据框架



我想转换"pyspark.sql.dataframe.DataFrame"给熊猫的数据。在最后一行,"ConnectionRefusedError: [WinError 10061]连接失败,因为目标计算机拒绝连接";错误发生。我该怎么修理它?

from pyspark import SparkConf, SparkContext
from pyspark.sql import SparkSession, Row
import pandas as pd
import numpy as np
import os
import sys
# spark setting
# local
conf = SparkConf().set("spark.driver.host", "127.0.0.1")
sc = SparkContext(conf=conf)
# session
spark = SparkSession.builder.master("local[1]").appName("test_name").getOrCreate()
# file
path = "./data/fhvhv_tripdata_2022-10.parquet"
# header가 있는 경우 option 추가
data = spark.read.option("header", True).parquet(path)
# Error ocurred
pd_df = data.toPandas()

输入图片描述

我想转换"pyspark.sql.dataframe.DataFrame"数据给熊猫。

首先,确保您运行的是pyspark 3.2或更高版本,因为这是原生添加考拉的地方。

那么,连接错误可能是很多事情,但与熊猫无关。你的代码是正确的。不是因为网络/配置。例如,在Windows上,您需要配置名为winutils的外部二进制文件。

注意:这里不需要SparkContext。你可以通过SparkSession builder传递选项。

否则,您没有使用Hadoop。因此,根本不要使用Spark如何将Parquet文件读取到Pandas DataFrame中?

相关内容

  • 没有找到相关文章

最新更新