Apache Storm vs Apache Samza vs Apache Spark

我做过Storm和Spark的工作，但Samza是相当新的。

我不明白为什么在 Storm 已经在那里进行实时处理时引入 Samza。Spark在内存中提供近乎实时的处理，并具有其他非常有用的组件，如graphx和mllib。

Samza带来了哪些改进，还有哪些进一步的改进？

这是对差异和优缺点的一个很好的总结。

我只想补充一点，Samza实际上并不是那么新，它带来了一定的简单性，因为它固执己见地使用Kafka作为其后端，而其他人则试图以简单为代价变得更加通用。Samza是由创造Kafka的人开创的，他们也是Kappa架构背后的同一个人 - 主要是以前LinkedIn的Jay Kreps。这很酷。

此外，编程模型在 Samza 的实时流、Spark Streaming 中的微批处理(与 Spark 不完全相同)以及 Storm 中的带有元组的喷口和螺栓之间完全不同。

这些都不是"更好"。这完全取决于您的用例、团队的优势、API 如何与您的心智模型匹配、支持质量等。

你也忘记了Apache Flink和Twitter的Heron，他们做的是因为Storm开始让他们失望。话又说回来，很少有人需要像Twitter那样大规模运营。

相关内容