DMP系统的技术堆栈选择

我们的DMP系统有这样的需求：1.受众导出：基于标签的受众每天需要将新的人口统计结果导出到Redis或文件，导出到DSP。因为标签数据每天都会刷新。我们有6亿用户。当我们有成千上万的人时，我们应该选择什么样的技术堆栈来快速计算和输出？2.事件分析：我们还需要根据实时事件创建受众。我们需要在受众中添加合格的人员。同时，随着时间的推移，不符合要求的人员需要被删除。有一个合适的技术堆栈建议来满足其中一个或两个。

谢谢。

我们广泛使用DMP的受众数据，通常管理数PB的数据和数百个受众。

我建议使用Apache Spark进行处理，因为：

编程模型的灵活性
批处理在DMP工作流中的普遍性
普通观众规模的高性能(适合RAM(
最广泛的集成，包括ML功能，这些功能对DMP来说越来越重要

存储是一个更复杂的问题：

对象存储(S3(是最简单的，但不是性能最好的
HDFS式存储在许多情况下速度更快，但成本更高
由于受众是固定的，根据受众更新的性能需求，您还可以考虑一个关键价值存储，例如Cassandra

希望这能有所帮助。

相关内容

最新更新

热门标签：