Apache Spark在YARN中部署时如何处理系统故障



前提条件

让我们假设ApacheSpark是使用YARN部署在hadoop集群上的。此外,火花执行正在运行。spark如何处理下面列出的情况?

案例&问题

  1. hadoop集群的一个节点由于磁盘错误而失败。但是,复制足够高,并且没有丢失任何数据。
    • 在该节点上运行的任务会发生什么
  2. hadoop集群的一个节点由于磁盘错误而失败。复制不够高,数据丢失。简单地说,spark再也找不到一个预先配置为工作流资源的文件了。
    • 它将如何处理这种情况
  3. 在执行过程中,主名称节点发生故障转移。
    • spark是否自动使用故障转移名称节点
    • 当次要名称节点也出现故障时会发生什么
  4. 由于某些原因,在工作流程中集群会完全关闭。
    • 火花会自动重启吗
    • 它会在工作流程中恢复到最后一个"保存"点吗

我知道,有些问题听起来可能很奇怪。不管怎样,我希望你能回答一些或全部。提前感谢。:(

以下是邮件列表对问题给出的答案(答案由Cloudera的Sandy Ryza提供(:

  1. "Spark将在其他节点上重新运行这些任务。">
  2. "在多次尝试读取块的任务失败后,Spark将忽略HDFS返回的任何错误,并使作业失败。">
  3. Spark通过普通的HDFS客户端API访问HDFS。在HA配置下,这些API将自动故障转移到新的名称节点。如果没有名称节点,Spark作业将失败
  4. 重新启动是管理的一部分,"Spark支持HDFS的检查点,因此您可以回到上次调用检查点时HDFS可用的时间。">

相关内容

  • 没有找到相关文章

最新更新