查找BigQuery中相关度最高的值



我希望返回从属元素和一系列自变量之间的corr值。

理想情况下,这可以在bigquery中运行,并且可以根据测试变量的数量增加或减少而灵活。

目前我正在使用Corr函数在表中,并持有单元格($),所以因变量总是被引用

示例文档在这里:https://docs.google.com/spreadsheets/d/17TCfDBMg6OcfA9tUJgpmSGYQBmbG7OU_55Oc_h6nVfU/edit?usp=sharing

BigQuery也有CORR函数:

CORR(X1, X2)  [OVER (...)]

可以使用CORR函数实现变量之间的关联。

下面是一个基于你的数据的例子:

select 
corr(dependent_variable, v1) as v1_cor, 
corr(dependent_variable, v2) as v2_corr, 
corr(dependent_variable, v3) as v3_corr, 
corr(dependent_variable, v4) as v4_corr 
from dataset.table

相关内容

  • 没有找到相关文章

最新更新