Spark Streaming:我们应该监视哪些内容以保持流式传输运行



我有一个在 4 个核心 16GB(主/工作)实例上运行的 Spark 项目,现在谁能告诉我需要监控哪些事情,以便我的集群/作业永远不会出现故障?

我创建了一个小列表,其中包括以下项目,如果您了解更多信息,请扩展列表:

  1. 监视 Spark 主服务器/辅助角色是否失败
  2. 监控 HDFS 是否被填满/下降
  3. 监控主/辅助角色的网络连接
  4. 监控火花作业不被杀

是一个很好的列表。但除此之外,我实际上还会监控流应用程序的接收器的状态(假设您是一些非 HDFS 数据源),无论它们是否已连接。好吧,老实说,这对于旧版本的Spark Streaming来说很棘手,因为获取接收器状态的仪器并不完全存在。但是,在Spark 1.0(即将发布)中,您可以使用org.apache.spark.streaming.StreamingListener接口来获取有关接收器状态的事件。

即将发布的Spark 1.0文档的先睹为快http://people.apache.org/~tdas/spark-1.0.0-rc10-docs/streaming-programming-guide.html

相关内容

最新更新