如何在Python中规范化位置名称



我正在开发一个用户评论数据集,其中提到了位置。我使用nltk(StanfordNERTagger(和spacy来提取位置。问题是它们有许多不同的形式。例如:(纽约州对纽约市,佐治亚州对乔治亚州等(。此外,我希望检索给定城市的状态。有没有一个库或方法可以在Python中规范化这些?例如,一个像这样工作的库:

g = geo_classify('New York City')
g.cities() => ['New York City']
g.states() => ['New York']
g.countries() => ['United States']

我尝试使用Geograpy3,但它没有检测到一些城市,任何缩写,也没有给我给定城市的州。有什么建议吗?

@Big_Mac-我是地理疗法的负责人之一。感谢您尝试地理3。你可能想使用定位器界面和最近发布的geograpy3。现在有一个CityLookup、RegionLookup和CountryLookup,根据wikidata考虑不同的标签。

这里有一个";预览";期待什么。在内部,将使用以下SQL数据库查询:

纽约示例

查询

select * from cityLookup where label='New York City'

结果

>名称geoNameId国家Idop>纬度lon<1th>partOfRegionId th>纽约州Q1384第三季度41-74Q1 3844042011-5美国纽约美国
标签级别locationKind>wikidataid区域IdregionLat
纽约市5城市Q6051285818398748

相关内容

  • 没有找到相关文章

最新更新