我需要从网站中提取所有城市名称。我在以前的项目中使用过 beautifulSoup 和 RE,但在这个网站上,城市名称是常规文本的一部分,没有特定的格式。我找到了满足我要求的地理包(https://pypi.python.org/pypi/geograpy/0.3.7)。
Geograpy 使用 nltk 包。我为 nltk 安装了所有模型和软件包,但它不断抛出此错误:
>>> import geograpy
>>> places = geograpy.get_place_context(url="http://www.state.gov/misc/list/")
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "C:Python27libsite-packagesgeograpy__init__.py", line 6, in get_place_context
e.find_entities()
File "C:Python27libsite-packagesgeograpyextraction.py", line 31, in find_entities
if (ne.node == 'GPE' or ne.node == 'PERSON') and ne[0][1] == 'NNP':
File "C:Python27libsite-packagesnltktree.py", line 198, in _get_node
raise NotImplementedError("Use label() to access a nod label.")
NotImplementedError: Use label() to access a node label.
任何帮助将不胜感激
你可以通过将".node"替换为".label()"来解决这个问题。
在你的问题中,你可以尝试更换
if (ne.node == 'GPE' or ne.node == 'PERSON') and ne[0][1] == 'NNP':
跟
if (ne.label() == 'GPE' or ne.label() == 'PERSON') and ne[0][1] == 'NNP':
不要假设每个人都修改库文件。对于需要帮助的人或任何需要帮助的人,您将需要访问软件包的安装位置。您想要修改 extraction.py。如果您使用的是Windows 10或类似版本,则该文件可以位于C:\Python27\Lib\site-packages\geograpy\extraction.py 中。它通常与python位于同一安装目录中。正如其他人之前提到的,更改(第 31 行)
if (ne.node == 'GPE' or ne.node == 'PERSON') 和 ne[0][1] == 'NNP':
自
if (ne.label() == 'GPE' or ne.label() == 'PERSON') 和 ne[0][1] == 'NNP':
做。快乐编码。
看起来geograpy
正在调用nltk
Tree
对象的node
方法:
nes = nltk.ne_chunk(nltk.pos_tag(text))
for ne in nes:
if len(ne) == 1:
if (ne.node == 'GPE' or ne.node == 'PERSON') and ne[0][1] == 'NNP':
nltk
包已标记为已弃用:
def _get_node(self):
"""Outdated method to access the node value; use the label() method instead."""
raise NotImplementedError("Use label() to access a node label.")
def _set_node(self, value):
"""Outdated method to set the node value; use the set_label() method instead."""
raise NotImplementedError("Use set_label() method to set a node label.")
node = property(_get_node, _set_node)
包坏了。您可以自己修复它或使用其他方法。