我想知道计算两个美国邮政编码列之间距离(以英里为单位(的最有效方法是使用 R。
我听说过用于计算邮政编码之间差异的Geosphere软件包,但不完全理解它,并且想知道是否有替代方法。
例如,假设我有一个如下所示的数据框。
ZIP_START ZIP_END
95051 98053
94534 94128
60193 60666
94591 73344
94128 94128
94015 73344
94553 94128
10994 7105
95008 94128
我想创建一个如下所示的新数据框。
ZIP_START ZIP_END MILES_DIFFERENCE
95051 98053 x
94534 94128 x
60193 60666 x
94591 73344 x
94128 94128 x
94015 73344 x
94553 94128 x
10994 7105 x
95008 94128 x
其中 x 是两个邮政编码之间的英里差。
计算此距离的最佳方法是什么?
下面是用于创建示例数据框的 R 代码。
df <- data.frame("ZIP_START" = c(95051, 94534, 60193, 94591, 94128, 94015, 94553, 10994, 95008), "ZIP_END" = c(98053, 94128, 60666, 73344, 94128, 73344, 94128, 7105, 94128))
如果您有任何问题,请告诉我。
任何建议不胜感激。
谢谢你的帮助。
一个名为"zipcode"的方便的R包,它提供了邮政编码,城市,州以及纬度和经度的表格。 因此,一旦您获得了这些信息,"地圈"包就可以计算点之间的距离。
library(zipcode)
library(geosphere)
#dataframe need to be character arrays or the else the leading zeros will be dropped causing errors
df <- data.frame("ZIP_START" = c(95051, 94534, 60193, 94591, 94128, 94015, 94553, 10994, 95008),
"ZIP_END" = c(98053, 94128, 60666, 73344, 94128, 73344, 94128, "07105", 94128),
stringsAsFactors = FALSE)
data("zipcode")
df$distance_meters<-apply(df, 1, function(x){
startindex<-which(x[["ZIP_START"]]==zipcode$zip)
endindex<-which(x[["ZIP_END"]]==zipcode$zip)
distGeo(p1=c(zipcode[startindex, "longitude"], zipcode[startindex, "latitude"]), p2=c(zipcode[endindex, "longitude"], zipcode[endindex, "latitude"]))
})
有关输入数据框的列类的警告。 邮政编码应为字符而不是数字,否则删除前导零会导致错误。
从 distGeo 返回的距离以米为单位,我将允许读者确定正确的单位转换为英里。
更新
邮政编码包似乎已存档。 有一个替代包:"zipcodeR",它提供经度和纬度数据以及附加信息。
OP 要求"最有效",所以给定
- 当您想在大量数据上使用它时,
geosphere
非常慢 -
apply
本质上是一个循环函数,通常可以使用矢量化代码进行击败
我提出了一个使用data.table
和library(geodist)
的完全矢量化解决方案
#dataframe need to be character arrays or the else the leading zeros will be dropped causing errors
df <- data.frame("ZIP_START" = c(95051, 94534, 60193, 94591, 94128, 94015, 94553, 10994, 95008),
"ZIP_END" = c(98053, 94128, 60666, 73344, 94128, 73344, 94128, "07105", 94128),
stringsAsFactors = FALSE)
library(zipcodeR)
library(data.table)
library(geodist)
## Convert the zip codes to data.table so we can join on them
## I'm using the centroid of the zipcodes (lng and lat).
## If you want the distance to the endge of the zipcode boundary you'll
## need to convert this into a spatial data set
dt_zips <- as.data.table( zip_code_db[, c("zipcode", "lng", "lat")])
## convert the input data.frame into a data.talbe
setDT( df )
## the postcodes need to be characters
df[
, `:=`(
ZIP_START = as.character( ZIP_START )
, ZIP_END = as.character( ZIP_END )
)
]
## Attach origin lon & lat using a join
df[
dt_zips
, on = .(ZIP_START = zipcode)
, `:=`(
lng_start = lng
, lat_start = lat
)
]
## Attach destination lon & lat using a join
df[
dt_zips
, on = .(ZIP_END = zipcode)
, `:=`(
lng_end = lng
, lat_end = lat
)
]
## calculate the distance
df[
, distance_metres := geodist::geodist_vec(
x1 = lng_start
, y1 = lat_start
, x2 = lng_end
, y2 = lat_end
, paired = TRUE
, measure = "haversine"
)
]
## et voila - note the missing zipcode 6066 and 73344
df
# ZIP_START ZIP_END lng_start lat_start lng_end lat_end distance_metres
# 1: 95051 98053 -121.98 37.35 -122.02 47.66 1147708.60
# 2: 94534 94128 -122.10 38.20 -122.38 37.62 69090.01
# 3: 60193 60666 -88.09 42.01 NA NA NA
# 4: 94591 73344 -122.20 38.12 NA NA NA
# 5: 94128 94128 -122.38 37.62 -122.38 37.62 0.00
# 6: 94015 73344 -122.48 37.68 NA NA NA
# 7: 94553 94128 -122.10 38.00 -122.38 37.62 48947.02
# 8: 10994 07105 -73.97 41.10 -74.15 40.72 44930.17
# 9: 95008 94128 -121.94 37.28 -122.38 37.62 54263.61
另请注意,返回的距离以米为单位。
Dave2e提到的,原始邮政编码包已经从CRAN中删除,因此我们需要改用zipcodeR。
if (!require("zipcodeR"))install.packages("zipcodeR")
if (!require("geosphere"))install.packages("geosphere")
df <- data.frame(
"ZIP_START" = c(95051, 94534, 60193, 94591, 94128, 94015, 94553, 10994, 95008),
"ZIP_END" = c(98053, 94128, 60666, 73344, 94128, 73344, 94128, "07105", 94128),
stringsAsFactors = FALSE
)
data("zip_code_db")
df$distance_meters<-apply(df, 1, function(x){
startindex<-which(x[["ZIP_START"]]==zip_code_db$zipcode)
endindex<-which(x[["ZIP_END"]]==zip_code_db$zipcode)
distGeo(p1=c(zip_code_db[startindex, "lng"],
zip_code_db[startindex, "lat"]),
p2=c(zip_code_db[endindex, "lng"],
zip_code_db[endindex, "lat"]))
})
这是基于新的zipcodeR包的修复程序。功劳归于Dave2e。