GCP上数据管道的最佳服务是什么



我想在GCP上的项目上部署服务(使用Apache Beam的python脚本(,执行时间有时长达24小时。我需要这个带有数据管道的服务才能始终工作。我还有一个网络应用程序,它将使用数据管道的结果。我的解决方案是,我在GCP应用程序引擎上部署web应用程序,在K8s集群上部署python脚本,因为该作业可以持续24小时,而应用程序引擎是无服务器的,所以无服务器中的一切都应该是一个短时间的作业,大约15分钟。我的想法是正确的,还是你有其他更好的GCP服务解决方案可以建议。

如果您正在使用Apache Beam,我的建议是在Dataflow上部署管道。该服务完全由GCP管理,事实上,该产品是ApacheBeam项目中开源的产品,因此应该直接使用该产品。

通过Dataflow处理数据后,您可以将结果写入几个可能的目的地,如BigQuery、GCS、Pub/Sub、Datastore,并从Web应用程序中使用这些结果。请参阅相关文档。

请注意所需的处理时间:数据流将根据需要进行扩展,但即使在这种情况下,如果你的工作需要24小时运行,你也必须仔细测试和研究,还要审查可能的相关成本。

最新更新