Fetch_pandas vs Unload as Parquet-使用Python连接器卸载Snowflake数据



我是Snowflake和Python的新手。我正试图找出哪一种更快、更高效:

  1. 使用fetch_pandas_all((或fetch_paendas_batches((从雪花中读取数据
  2. 将Snowflake中的数据卸载到Parquet文件中,然后将其读取到数据帧中

CONTEXT我正在开发一个数据层回归测试工具,该工具必须验证和验证由不同版本的系统生成的数据集。

通常,一次模拟运行会产生大约4000-5000万行,每行有18列。

我对panda或python的了解很少,但我正在学习(我曾经是一名前端开发人员(。

感谢您的帮助。

最新更新(09/11/2020(我使用fetch_pandas_batches((将数据拉入可管理的数据帧,然后将它们写入SQLite数据库。谢谢

根据您的用例,您可能最好只运行fetch_pandas_all()命令将数据获取到df中。性能可能会更好,因为它是数据的一跳,而且更容易编码。我还喜欢利用SQLAlchemy库并使用read_sql命令。看起来像这样:

resultSet = pd.read_sql(text(sqlQuery), SnowEngine)

一旦建立了发动机连接。相同的概念,但使用了SQLAlchemy库。

最新更新