如何以增量方式将数据从PostgresSQL迁移到HDFS

我有一个用于生产服务器的postgresql数据库。我想设置一个Hadoop/Spark集群来运行mapreduce作业。为了做到这一点，我需要将数据从我的postgres数据库加载到hdfs。天真的方法是有一个批处理作业，每天一次将数据库的内容（120GB）转储到HDFS。那将是浪费和昂贵的。由于大多数数据不会从一天到第二天发生变化，因此理论上每天只发送差异可能更便宜、更高效。这可能吗？

我已经阅读了一些关于sqoop的信息，它似乎提供了我想要的功能，但它需要对数据库和应用程序进行更改。有没有一种方法不需要对数据库进行任何更改？

Apache Sqoop可以连接到postgreSQL数据库。

Sqoop 提供了一种增量导入模式，可用于仅检索比某些以前导入的行集更新的行，即，您可以在上次运行和当前运行之间获取表更新。
不需要对数据库进行任何更改。

使用 Sqoop

postgreSQL 连接器，您可以将 Sqoop 连接到数据库并获得增量导入，而无需更改任何数据库。

相关内容

最新更新

热门标签：