我已经将一个CSV文件加载到我的Spark DataFrame中,此后,如果我尝试使用approxQuantile
方法来计算,这给了我一个错误。尝试使用不同的数据集和不同的列,概率和相对词。帮助我了解发生了什么。
df.approxQuantile("column_name", [0.2,0.3,0.6,1.0], 0)
我收到以下错误:
py4j.protocol.py4jerror:调用o30.approxquantile时发生错误。跟踪:py4j.py4jexception:方法近似值([[class scala.collection.mmutable。$ colon $ colon $ colon,scala.collection.mmmutable.immutable。$ cOLON $ cOLON $ cOLON,class java.lang.lang.dboung.doublang.double])))在py4j.feflection上不存在。:132)在py4j.commands.callcommand.execute(callcommand.java:79)py4j.gatewaywayconconnection.run(gatewayconnection.java:214)
如果您的pyspark驱动程序使用SPARK 2.2.0并且SPARK群集运行2.1.1(或更早),则可能发生这种情况。确保您的驾驶员&群集版本匹配,您应该很好!
请参阅文档中有关2.2中近似接口的更改的注释:
在2.2版中更改:添加了对多列的支持。