前提条件
让我们假设ApacheSpark是使用YARN部署在hadoop集群上的。此外,火花执行正在运行。spark如何处理下面列出的情况?
案例&问题
- hadoop集群的一个节点由于磁盘错误而失败。但是,复制足够高,并且没有丢失任何数据。
- 在该节点上运行的任务会发生什么
- hadoop集群的一个节点由于磁盘错误而失败。复制不够高,数据丢失。简单地说,spark再也找不到一个预先配置为工作流资源的文件了。
- 它将如何处理这种情况
- 在执行过程中,主名称节点发生故障转移。
- spark是否自动使用故障转移名称节点
- 当次要名称节点也出现故障时会发生什么
- 由于某些原因,在工作流程中集群会完全关闭。
- 火花会自动重启吗
- 它会在工作流程中恢复到最后一个"保存"点吗
我知道,有些问题听起来可能很奇怪。不管怎样,我希望你能回答一些或全部。提前感谢。:(
以下是邮件列表对问题给出的答案(答案由Cloudera的Sandy Ryza提供(:
- "Spark将在其他节点上重新运行这些任务。">
- "在多次尝试读取块的任务失败后,Spark将忽略HDFS返回的任何错误,并使作业失败。">
- Spark通过普通的HDFS客户端API访问HDFS。在HA配置下,这些API将自动故障转移到新的名称节点。如果没有名称节点,Spark作业将失败
- 重新启动是管理的一部分,"Spark支持HDFS的检查点,因此您可以回到上次调用检查点时HDFS可用的时间。">