小贝子编程

Apache Spark在YARN中部署时如何处理系统故障

本文关键字：何处理处理系统故障 Spark YARN 部署 Apache hadoop apache-spark hadoop-yarn
更新时间 : 2023-08-25
英文 : How does Apache Spark handles system failure when deployed in YARN?

前提条件

让我们假设ApacheSpark是使用YARN部署在hadoop集群上的。此外，火花执行正在运行。spark如何处理下面列出的情况？

案例&问题

hadoop集群的一个节点由于磁盘错误而失败。但是，复制足够高，并且没有丢失任何数据。
- 在该节点上运行的任务会发生什么
hadoop集群的一个节点由于磁盘错误而失败。复制不够高，数据丢失。简单地说，spark再也找不到一个预先配置为工作流资源的文件了。
它将如何处理这种情况
在执行过程中，主名称节点发生故障转移。
- spark是否自动使用故障转移名称节点
- 当次要名称节点也出现故障时会发生什么
由于某些原因，在工作流程中集群会完全关闭。
- 火花会自动重启吗
- 它会在工作流程中恢复到最后一个"保存"点吗

我知道，有些问题听起来可能很奇怪。不管怎样，我希望你能回答一些或全部。提前感谢。：(

以下是邮件列表对问题给出的答案(答案由Cloudera的Sandy Ryza提供(：

"Spark将在其他节点上重新运行这些任务。">
"在多次尝试读取块的任务失败后，Spark将忽略HDFS返回的任何错误，并使作业失败。">
Spark通过普通的HDFS客户端API访问HDFS。在HA配置下，这些API将自动故障转移到新的名称节点。如果没有名称节点，Spark作业将失败
重新启动是管理的一部分，"Spark支持HDFS的检查点，因此您可以回到上次调用检查点时HDFS可用的时间。">

相关内容

没有找到相关文章

最新更新