Apache Storm vs Apache Samza vs Apache Spark



我做过Storm和Spark的工作,但Samza是相当新的。

我不明白为什么在 Storm 已经在那里进行实时处理时引入 Samza。Spark在内存中提供近乎实时的处理,并具有其他非常有用的组件,如graphx和mllib。

Samza带来了哪些改进,还有哪些进一步的改进?

这是对差异和优缺点的一个很好的总结。

我只想补充一点,Samza实际上并不是那么新,它带来了一定的简单性,因为它固执己见地使用Kafka作为其后端,而其他人则试图以简单为代价变得更加通用。Samza是由创造Kafka的人开创的,他们也是Kappa架构背后的同一个人 - 主要是以前LinkedIn的Jay Kreps。这很酷。

此外,编程模型在 Samza 的实时流、Spark Streaming 中的微批处理(与 Spark 不完全相同)以及 Storm 中的带有元组的喷口和螺栓之间完全不同。

这些都不是"更好"。这完全取决于您的用例、团队的优势、API 如何与您的心智模型匹配、支持质量等。

你也忘记了Apache Flink和Twitter的Heron,他们做的是因为Storm开始让他们失望。话又说回来,很少有人需要像Twitter那样大规模运营。

最新更新