SQLite到PostgreSQL仅数据传输(以维护alembic功能)



PostgreSQL导入已经有一些问题和答案(以及特定的SQLite->PostgreSQL情况(。这个问题是关于一个特定的极端情况。

背景

我有一个现有的、用 python(金字塔(编写的生产中 Web 应用程序,并使用 alembic 轻松进行模式迁移。由于数据库以意外的高写入负载吱吱作响(可能是由于我自己的代码的复杂性(,我决定迁移到PostgreSQL。

数据迁移

有一些关于数据迁移的建议。最简单的一个涉及使用

sqlite3 my.db .dump > sqlitedumpfile.sql

然后导入它

psql -d newpostgresdb < sqlitedumpfile.sql

这需要对sqlitedumpfile进行一些编辑。特别是,删除一些不兼容的操作,更改值(sqlite将布尔值表示为0/1(等。最终,它太复杂了,无法以编程方式对我的数据执行,并且手动处理的工作太多(有些表有 20k 行左右(。

我最终确定的一个很好的数据迁移工具是pgloader,它立即"工作"。但是,与此类数据迁移的典型情况一样,这暴露了数据库中的各种数据不一致,我必须在进行迁移之前在源头解决这些不一致(特别是,删除非唯一列的外键,这在当时似乎是个好主意,以便于连接和删除依赖于已删除的其他表中的行的孤立行(。这些问题解决后,我可以做

pgloader my.db postgresql:///newpostgresdb

并适当地获取我的所有数据。

问题出在哪里?

pgloader 对数据非常有效,但对表结构本身则不是那么好。这导致了三个问题:

  1. 我不得不创建一个新的alembic修订版,其中包含大量更改(主要与数据类型相关,但也有一些与问题2相关(。

  2. 约束/索引名称不可靠(生成唯一的数字名称(。实际上有一个选项可以禁用它,这是一个问题,因为我需要一个可靠的升级路径,该路径可以在生产中复制,而无需手动调整 alembic 代码。

  3. 大多数主键的序列/自动增量刚刚失败。这破坏了我的 Web 应用程序,因为我无法为某些(不是全部(数据库添加新行。

相比之下,使用 alembic 重新创建空白数据库来维护架构可以很好地工作,而无需更改我的任何 Web 应用程序代码。但是,pgloader 默认覆盖现有表,因此这将使我无处可去,因为数据是真正需要迁移的。

如何使用我已经定义的架构(以及有效的架构(进行正确的数据迁移?

最终奏效的是,总而言之:-

  1. 在 postgresql://newpostgresdb 中创建适当的数据库结构(我只是为此使用了alembic upgrade head(

  2. 使用 pgloader 将数据从 sqlite 移动到 postgresql 中的其他数据库。如问题中所述,在此步骤之前需要解决一些数据不一致问题,但这与此问题本身无关。

    createdb tempdb

    pgloader my.db postgresql:///tempdb

  3. 使用pg_dump转储tempdb中的数据

pg_dump -a -d tempdb > dumped_postgres_database

  1. 编辑生成的转储以完成以下操作:-

    • SET session_replication_role = replica因为我的某些行相对于同一表中的其他行是循环

    • 删除alembic_version表,因为我们正在重新启动 alembic 的新分支。

    • 再生任何序列,相当于SELECT pg_catalog.setval('"table_colname_seq"', (select max(colname) from table));

  2. 最后,psql可用于将数据加载到实际数据库

psql -d newpostgresdb < dumped_postgres_database

最新更新