如何以增量方式将数据从PostgresSQL迁移到HDFS



我有一个用于生产服务器的postgresql数据库。我想设置一个Hadoop/Spark集群来运行mapreduce作业。为了做到这一点,我需要将数据从我的postgres数据库加载到hdfs。天真的方法是有一个批处理作业,每天一次将数据库的内容(120GB)转储到HDFS。那将是浪费和昂贵的。由于大多数数据不会从一天到第二天发生变化,因此理论上每天只发送差异可能更便宜、更高效。这可能吗?

我已经阅读了一些关于sqoop的信息,它似乎提供了我想要的功能,但它需要对数据库和应用程序进行更改。有没有一种方法不需要对数据库进行任何更改?

  • Apache Sqoop可以连接到postgreSQL数据库。

    Sqoop 提供了一种增量导入模式,可用于仅检索比某些以前导入的行集更新的行,即,您可以在上次运行和当前运行之间获取表更新。

  • 不需要对数据库进行任何更改。

使用 Sqoop

postgreSQL 连接器,您可以将 Sqoop 连接到数据库并获得增量导入,而无需更改任何数据库。

相关内容

  • 没有找到相关文章

最新更新