我正在开发一个用户评论数据集,其中提到了位置。我使用nltk
(StanfordNERTagger
(和spacy
来提取位置。问题是它们有许多不同的形式。例如:(纽约州对纽约市,佐治亚州对乔治亚州等(。此外,我希望检索给定城市的状态。有没有一个库或方法可以在Python中规范化这些?例如,一个像这样工作的库:
g = geo_classify('New York City')
g.cities() => ['New York City']
g.states() => ['New York']
g.countries() => ['United States']
我尝试使用Geograpy3
,但它没有检测到一些城市,任何缩写,也没有给我给定城市的州。有什么建议吗?
@Big_Mac-我是地理疗法的负责人之一。感谢您尝试地理3。你可能想使用定位器界面和最近发布的geograpy3。现在有一个CityLookup、RegionLookup和CountryLookup,根据wikidata考虑不同的标签。
这里有一个";预览";期待什么。在内部,将使用以下SQL数据库查询:
纽约示例
查询
select * from cityLookup where label='New York City'
结果
标签 | 级别 | locationKind | >>wikidataid | 名称geoNameId区域Id | 国家Idop>纬度lon<1th>partOfRegionId th>regionLat |
---|---|---|---|---|---|
纽约市 | 5 | 城市 | Q60 | 纽约州5128581 | Q1384第三季度8398748 | 41-74Q1 3844042011-5美国纽约美国