DMP系统的技术堆栈选择



我们的DMP系统有这样的需求:1.受众导出:基于标签的受众每天需要将新的人口统计结果导出到Redis或文件,导出到DSP。因为标签数据每天都会刷新。我们有6亿用户。当我们有成千上万的人时,我们应该选择什么样的技术堆栈来快速计算和输出?2.事件分析:我们还需要根据实时事件创建受众。我们需要在受众中添加合格的人员。同时,随着时间的推移,不符合要求的人员需要被删除。有一个合适的技术堆栈建议来满足其中一个或两个。

谢谢。

我们广泛使用DMP的受众数据,通常管理数PB的数据和数百个受众。

我建议使用Apache Spark进行处理,因为:

  1. 编程模型的灵活性
  2. 批处理在DMP工作流中的普遍性
  3. 普通观众规模的高性能(适合RAM(
  4. 最广泛的集成,包括ML功能,这些功能对DMP来说越来越重要

存储是一个更复杂的问题:

  • 对象存储(S3(是最简单的,但不是性能最好的
  • HDFS式存储在许多情况下速度更快,但成本更高
  • 由于受众是固定的,根据受众更新的性能需求,您还可以考虑一个关键价值存储,例如Cassandra

希望这能有所帮助。

最新更新