EMR pyspark notebook Spark 进度小部件消失了



以前,当我使用 pyspark 运行我的 EMR 笔记本时,我有这些显示进度的小部件。

我说的是这些小部件: https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-managed-notebooks-spark-monitor.html

昨天我遇到了很多集群无法正确连接到笔记本的问题,但今天"一切"都很好 - 我们这边没有意识到任何变化。

我正在克隆以前使用的 EMR 集群并加载以前使用的笔记本。

但是我不再得到小部件了,否则集群会像以前一样计算和工作。

有什么想法吗?我需要检查什么?

谢谢!

我有一个引导操作,将 mysql jdbc 复制到/users/hadoop/jars - 但我以前也有过这个。

试:

  • 从 0 创建集群

  • 从 0 创建的笔记本

  • 设置与群集的 Web 连接 - 至少我可以在这里看到进度

  • 创建了各种群集配置

电子病历配置:

[{
"classification": "emrfs-site",
"properties": {
"fs.s3.enableServerSideEncryption": "true",
"fs.s3.maxConnections": "2000"
}
},
{
"classification": "spark",
"properties": {
"maximizeResourceAllocation": "true"
}
},
{
"classification": "livy-conf",
"properties": {
"livy.server.session.timeout": "16h"
}
},
{
"configurations": [
{
"classification": "export",
"properties": {
"PYSPARK_PYTHON": "/usr/bin/python3"
}
}
],
"classification": "spark-env",
"properties": {}
}]

我没有收到任何错误消息或任何此类消息。

此问题已在最新的 EMR 笔记本更新中修复。您将能够看到火花监控小部件,它将为您提供详细的火花作业信息。此外,您还可以看到进度条,该进度条表示单元格执行的总体进度。

最新更新