R语言从布雷纳德-罗宾逊相似性中排除 0

我正在使用Daniel Weidele的以下方法来计算一组数据的Brainerd-Robinson相似性(下面的代码)。我的行表示地点，我的列表示在每个地点找到的人的年龄。我使用相似性来衡量哪些地方的人口统计构成彼此相似，然后在网络分析中使用输出。

我的问题是，我的很多地方在某些年龄段都有"0"人，所以相似性指数显示了这些地方之间的紧密联系。我想运行模型的两次迭代，两者都是 i) 其中考虑了"0"，ii) 忽略了"0"，即我只返回在正数据上生成的索引。

我已经尝试了各种从分析中排除"0"的方法，但到目前为止没有任何效果。对此有什么建议吗？谢谢。

# function to load the observations
load = function() {
p <- read.csv("observations.csv")  
rownames(p) <- p[,1]
p <- p[,c(2:6)]
return(p)
}
# function to compute the normalized Brainerd-Robinson similarity for observations x
BR <- function(x) 
{
rd <- dim(x)[1]
results <- matrix(0,rd,rd)
for (s1 in 1:rd) {
for (s2 in 1:rd) {
results[s1,s2] <- 1 - (sum(abs(x[s1, ] / sum(x[s1,]) - x[s2, ] / sum(x[s2,]))))/2
}
}
rownames(results) <- rownames(x)
colnames(results) <- rownames(x)
return(results)
}
# load observations, compute Brainerd-Robinson similarity and write results to file
write.csv(BR(load()), "br.csv")

为什么不直接问作者？ :)

当你看线时

results[s1,s2] <- 1 - (sum(abs(x[s1, ] / sum(x[s1,]) - x[s2, ] / sum(x[s2,]))))/2

这主要是魔术发生的地方。让我概述一下这里发生了什么，只看分配操作的右侧<-：

1 - (sum(abs(x[s1, ] / sum(x[s1,]) - x[s2, ] / sum(x[s2,]))))/2

让我们打电话

站点 1 的 Obvserationsx[s1,](OOS1)的矢量，
数字(或标量)sum(x[s1,])，然后sum(OOS1)站点 1 (SOS1) 的总和，
以及站点 1 (NOS1)归一化观测值x[s1,] / sum(x[s1,])向量

然后，我们可以将作业的右侧部分重写为：

1 - (sum(abs(OOS1 / SOS1 - OOS2 / SOS2)))/2

或

1 - (sum(abs(NOS1 - NOS2)))/2

重要的部分是，NOS1 和 NOS2 仍然是包含每个类别的观测值数量的向量，只是标准化为站点中的比例。

现在，您的问题的关键部分是：abs(NOS1 - NOS2).

NOS1 - NOS2

只需从一个向量中减去另一个向量。这是您要进行修改的地方，以便不考虑 0 值：

differenceIgnoreZeroes <- function(u, v) 
{
# input vectors u and v should have equal length for this to work
result <- vector()
for (i in 1:length(u)) {
if(u[i] == 0 || v[i] == 0) next # SKIP IF EITHER VALUE IS 0
result[i] <- u[i] - v[i]    
}
return(result)
}

定义此函数后，我们因此编写differenceIgnoreZeroes(NOS1, NOS2)而不是NOS1-NOS2。

接下来，我们继续像以前一样采用绝对值：

abs(differenceIgnoreZeroes(NOS1, NOS2))

由于生成的向量现在包含"NA"值，因此在对向量求和时，我们需要小心不要考虑这些NA，否则整个总和也会变得NA。因此，将参数na.rm设置为 T(rue)：

sum(abs(differenceIgnoreZeroes(NOS1,NOS2)), na.rm = T)

因此，我们的右手总分配如下所示：

1 - (sum(abs(differenceIgnoreZeroes(OOS1 / SOS1, OOS2 / SOS2)), na.rm = T))/2

进一步扩展到

1 - (sum(abs(differenceIgnoreZeroes(x[s1, ] / sum(x[s1,]), 
x[s2, ] / sum(x[s2,]))), na.rm = T))/2

我希望这有帮助！

干杯

丹尼尔·魏德勒

相关内容

最新更新

热门标签：

R语言 从布雷纳德-罗宾逊相似性中排除 0

相关内容

最新更新

热门标签：

R语言从布雷纳德-罗宾逊相似性中排除 0