我制作了一张带有城镇邮政编码的地图。填充是一个案例或非案例的比例。但有些邮政编码的总数字很少,因此异常值会扭曲地图。
有没有一种方法可以根据多边形的n自动合并两个相邻区域的多边形和数据?
如果这不可能,我如何在不丢失ID的情况下合并sf/df的行?
我想最简单的方法就是将邮政编码设置为NA
取决于您所说的"自动"。这里有一个简单的算法。
repeat:
Find the region with the smallest population.
If that's more than your threshold, stop
Find that region's neighbours, pick one (at random, or smallest population).
merge that neighbour with that region
查找邻居和合并都可以用sf
包或sp
包和朋友(如spdep
和rgeos
(来完成。
同样,这可以被认为是使用基于邻接的距离度量的聚类算法。您可以进行一个完整的层次聚类,然后在某个点切割树,使所有聚类都具有N>threshold
。
现在,关于这是否是一个好主意统计是另一个问题,这取决于你的目标是什么。如果你担心潜在风险是否大于0.5,并且你得到了阳性,因为你从一个小样本中"偶然"得到了3和2个阳性,然后你需要对你的数据进行建模,并计算出在给定数据的情况下超过0.5的概率。然后绘制地图,这将考虑到小样本量。