美好的一天,
我正在使用为spark
配置的Azure HDinsight cluster
的基本安装。我在Jupyter Notebook
,PySpark
。
在提供的00- [首先阅读我] PySpark Kernel Features.ipynb file
中,我在执行spark sql 'SELECT'
时发现了以下错误/错误:
attributeError:'模块'对象没有属性'api'
执行代码:
%%sql -o query1
SELECT clientid, querytime, deviceplatform, querydwelltime
FROM hivesampletable
WHERE state = 'Washington' AND devicemake = 'Microsoft'
在其他代码中使用SELECT
时,我出现了相同的错误。由于此处指出的代码出现在提供的基线"教程"中,因此我希望它的编码错误不是。我在PySpark
和PySpark 3 kernel
中遇到了相同的错误。
有人可以分享任何经验/建议/建议吗?
跟踪:
attributeErrtraceback(最近的最新通话) /USR/bin/anaconda/lib/python2.7/site-packages/ipython/core/formatters.pyc 在 call (self,obj)
902 pass
903 else:
--> 904 printer(obj)
905 return True
906 # Finally look for special method names
/usr/bin/anaconda/lib/python2.7/site-packages/autovizwidget/widget/widget/utils.pyc in display_dataframe(df)
114
115 def display_dataframe(df):
--> 116 selected_x = select_x(df)
117 selected_y = select_y(df, selected_x)
118 encoding = Encoding(chart_type=Encoding.chart_type_table, x=selected_x, y=selected_y,
/usr/bin/anaconda/lib/python2.7/site-packages/autovizwidget/widget/widget/widget/utils.pyc in select_x(data, order)
70 _validate_custom_order(order)
71
---> 72 d = _classify_data_by_type(data, order)
73
74 chosen_x = None
/usr/bin/anaconda/lib/python2.7/site-packages/autovizwidget/widget/widget/utils.pyc in _classify_data_by_type(data, order, skip)
48 for column_name in data:
49 if column_name not in skip:
---> 50 typ = infer_vegalite_type(data[column_name])
51 d[typ].append(column_name)
52
/usr/bin/anaconda/lib/python2.7/site-packages/autovizwidget/widget/widget/widget/utils.pyc in infer_vegalite_type(data)
14 """
15
---> 16 typ = pd.api.types.infer_dtype(data)
17
18 if typ in ['floating', 'mixed-integer-float', 'integer',
attributeError:'模块'对象没有属性'api'
笔记本使用了熊猫的0.17.1版本,但autovizwidget取决于带有'api'模块的pandas的后期版本。有人告诉我,这将在随后的Hdinsight Configs的后续版本中解决。
ssh进入群集并运行以下内容:
sudo -HE /usr/bin/anaconda/bin/conda install pandas
也有相同的问题。我用过:
pip安装pandas -upgrade -user
通过jupyter笔记本中的终端。
我从这些说明中遇到了同一问题:https://learn.microsoft.com/en-us/azure/hdinsight/hdinsight/spark/spark/apark/apache-spark-load-data-data-run--查询和刚刚换成使用 pyspark3 的所有内容都很好