将 BigQuery 数据集位置存储为变量的最佳方法 - python - Best way to store BigQuery dataset location as variable

我目前有一个函数，可以读取SQL文件以在Google的BigQuery上执行查询。

import pandas as pd
def func1(arg1,arg2):
     with open('query.sql', 'r') as sqlfile:
        sql_query= sqlfile.read()
     df = pd.read_gbq(sql_query.format(arg1=arg1,arg2=arg2)

query.sql
SELECT * 
FROM bigquery.dataset
WHERE col1= {arg1}
AND col2 = {arg2}

数据集位置在SQL文件

本身中是硬编码的，因此，如果要更改数据集位置，则很难进行更改(即我必须单独转到每个SQL文件并手动更改"From"子句。由于我有很多SQL文件，因此手动编辑每个SQL文件的from子句变得很麻烦(

所以我的问题是，使数据集位置动态的最佳方法是什么？理想情况下，数据集位置应该是一个变量，但问题是将变量放置在哪里。如果它是一个变量，是否最好将其作为函数参数传入？I.E func1 将有一个参数，称为dataset_loc

import pandas as pd
def func1(arg1,arg2,dataset_loc):
     with open('query.sql', 'r') as sqlfile:
        sql_query= sqlfile.read()
     df = pd.read_gbq(sql_query.format(arg1=arg1,arg2=arg2,dataset_loc=dataset_loc)

query.sql
SELECT * 
FROM {dataset_loc}
WHERE col1 = {arg1}
AND col2 = {arg2}

想知道这样做的最佳方法是什么。谢谢

如果您使用相同的函数对不同的数据集进行操作，最好将函数设置为"数据集不可知"，即将数据集作为参数传递。对我来说，你的第二个例子是这样做的好方法。

另外，请记住，现在您的应用程序可能很小，但您需要为将来的扩展做好准备。当然，您不希望必须为每个数据集编写相同的 SQL 查询文件。

这取决于您的用例，但作为一般规则，建议在代码之外管理应用程序的参数。为此，使用配置文件，当您使用Python时，请查看此Python库，这对于阅读它们很有用。

将 BigQuery 数据集位置存储为变量的最佳方法 - python

相关内容

最新更新

热门标签：