我最近更新到pycharmPyCharm 2022.1.1 (Community Edition)
的新版本,并注意到pysparkshow()
功能不再正常工作了。这是我现在正在处理的,所以当我试图从一个数据框中显示10行时它显示的数据如下:
df.show(10)
+-------------------+------------+----------+----------+
| date| user_id| prod_id| counts|
+-------------------+------------+----------+----------+
|2022-05-31 00:00:00| UUU91| 88888| 234|
|2022-05-31 00:00:00| UUU92| 99999| 234|
|2022-05-31 00:00:00| UUU93| 00000| ...
所以期望看到所有10行(有数百万行在那里,所以我确定有数据),但正如你所看到的,它是修剪输出。当我执行以下操作时,结果正确显示:
df.select('user_id', 'prod_id').show(10)
+------------+----------+
| user_id| prod_id|
+------------+----------+
| UUU91| 88888|
| UUU92| 99997|
| UUU93| 99995|
| UUU94| 99949|
| UUU95| 99989|
| UUU96| 99909|
| UUU97| 99919|
| UUU98| 99929|
| UUU99| 99939|
| UUU90| 99949|
+------------+----------+
在我切换到新版本之前,这个工作得很好,我不知道这是pyspark问题还是pycharm问题,所以任何帮助都是非常感谢的。
这似乎是上述pycharm版本的已知问题,详见:https://youtrack.jetbrains.com/issue/PY-53983/Debug-console-cuts-off-truncates-output
所以我必须安装一个旧版本的pycharm来修复这个问题(PyCharm 2021.3.3 (Community Edition)
)。