Fetch_pandas vs Unload as Parquet-使用Python连接器卸载Snowflake数据

我是Snowflake和Python的新手。我正试图找出哪一种更快、更高效：

CONTEXT我正在开发一个数据层回归测试工具，该工具必须验证和验证由不同版本的系统生成的数据集。

通常，一次模拟运行会产生大约4000-5000万行，每行有18列。

我对panda或python的了解很少，但我正在学习(我曾经是一名前端开发人员(。

感谢您的帮助。

最新更新(09/11/2020(我使用fetch_pandas_batches((将数据拉入可管理的数据帧，然后将它们写入SQLite数据库。谢谢

根据您的用例，您可能最好只运行fetch_pandas_all()命令将数据获取到df中。性能可能会更好，因为它是数据的一跳，而且更容易编码。我还喜欢利用SQLAlchemy库并使用read_sql命令。看起来像这样：

resultSet = pd.read_sql(text(sqlQuery), SnowEngine)

一旦建立了发动机连接。相同的概念，但使用了SQLAlchemy库。

相关内容