从DataFlow加载大量数据到外部postgres数据库的最佳方法是什么?

我正在用Python运行一个管道，在那里我刮了很多数据，想要在外部数据库(Digital Ocean Postgres)中加载，我有一些选项，但它们在性能上都不好看(或者我不能正确评估性能):

使用from beam_nuggets.io import relational_db有一些性能上的缺点，因为它逐行加载;
上传分组数据到pubsub，在那里我可以运行一些云功能上传到外部数据库，然而，即使是探索这可能是云功能运行的大数据，并且在消息数量和消息大小方面有一些限制，我可以发布;
上传到bucket，在那里我可以运行云功能，但这样我就会面临同样的问题，关于一个函数处理和分裂的大量数据将是很多函数调用;

对我来说，如果我能在一个插入中上传一堆数据，那就太好了(我认为)，像COPY TO这样的东西，但我不能在DataFlow上运行这个。

任何想法?

提交数据流管道后，数据流服务启动几个worker(即VM)来执行您的管道。每个worker将被分配一定的键范围用于并行执行，并在必要时将数据shuffle到另一个worker(即GroupByKey)。因此，一般来说，如果你有较大的键数和较小的键值大小，你的管道有更好的性能。

在"一个大数据用于一个函数运行"的情况下，如果您的数据与许多键相关联，并且为这些键运行相同的函数，那么这可能是好的。但是，如果您指的是在函数中运行的一个键的大数据(例如，DoFn)，那么它可能会遇到性能问题，因为它可能会减慢键并行性，并且您可能会遇到一些系统限制(https://cloud.google.com/dataflow/quotas)。例如，单个元素有大小限制。

关于后一种情况的一些想法:你可以考虑将你的(单个大)数据分割成许多块，并分配给不同的键(例如，使用公共前缀)。在数据库查询层，可以根据前缀进行查询。或者，如果你的数据库支持键值附加，你可以在一个键中批量读取(单个大)数据，并将结果附加到数据库中。

我认为一个好的起点是检查谷歌提供的模板(https://cloud.google.com/dataflow/docs/guides/templates/provided-templates)，在那里你可以找到从GCS读取数据并将处理后的数据插入到BigQuery的例子。你也可以做类似的事情。

相关内容

最新更新

热门标签：