Spark SQL - 选择产生属性错误:"模块"对象没有属性"api"



美好的一天,

我正在使用为spark配置的Azure HDinsight cluster的基本安装。我在Jupyter NotebookPySpark

在提供的00- [首先阅读我] PySpark Kernel Features.ipynb file中,我在执行spark sql 'SELECT'时发现了以下错误/错误:

attributeError:'模块'对象没有属性'api'

执行代码:


%%sql -o query1
SELECT clientid, querytime, deviceplatform, querydwelltime
FROM hivesampletable
WHERE state = 'Washington' AND devicemake = 'Microsoft' 

在其他代码中使用SELECT时,我出现了相同的错误。由于此处指出的代码出现在提供的基线"教程"中,因此我希望它的编码错误不是。我在PySparkPySpark 3 kernel中遇到了相同的错误。

有人可以分享任何经验/建议/建议吗?

跟踪:


attributeErrtraceback(最近的最新通话) /USR/bin/anaconda/lib/python2.7/site-packages/ipython/core/formatters.pyc 在 call (self,obj)

 902                 pass
 903             else:
 --> 904                 printer(obj)
 905                 return True
 906             # Finally look for special method names

/usr/bin/anaconda/lib/python2.7/site-packages/autovizwidget/widget/widget/utils.pyc in display_dataframe(df)

114 
115 def display_dataframe(df):
 --> 116     selected_x = select_x(df)
117     selected_y = select_y(df, selected_x)
118     encoding = Encoding(chart_type=Encoding.chart_type_table, x=selected_x, y=selected_y,

/usr/bin/anaconda/lib/python2.7/site-packages/autovizwidget/widget/widget/widget/utils.pyc in select_x(data, order)

 70         _validate_custom_order(order)
 71 
 ---> 72     d = _classify_data_by_type(data, order)
 73 
 74     chosen_x = None

/usr/bin/anaconda/lib/python2.7/site-packages/autovizwidget/widget/widget/utils.pyc in _classify_data_by_type(data, order, skip)

 48     for column_name in data:
 49         if column_name not in skip:
 ---> 50             typ = infer_vegalite_type(data[column_name])
 51             d[typ].append(column_name)
 52 

/usr/bin/anaconda/lib/python2.7/site-packages/autovizwidget/widget/widget/widget/utils.pyc in infer_vegalite_type(data)

 14     """
 15 
 ---> 16     typ = pd.api.types.infer_dtype(data)
 17 
 18     if typ in ['floating', 'mixed-integer-float', 'integer',

attributeError:'模块'对象没有属性'api'

笔记本使用了熊猫的0.17.1版本,但autovizwidget取决于带有'api'模块的pandas的后期版本。有人告诉我,这将在随后的Hdinsight Configs的后续版本中解决。

ssh进入群集并运行以下内容:

sudo -HE /usr/bin/anaconda/bin/conda install pandas

也有相同的问题。我用过:

pip安装pandas -upgrade -user

通过jupyter笔记本中的终端。

我从这些说明中遇到了同一问题:https://learn.microsoft.com/en-us/azure/hdinsight/hdinsight/spark/spark/apark/apache-spark-load-data-data-run--查询和刚刚换成使用 pyspark3 的所有内容都很好

相关内容

  • 没有找到相关文章

最新更新