阅读文章内容使用鹅检索什么



我正试图从。html文件中读取(这里指定了url,以便在示例中方便)[1]。但有时它不显示任何文本。请帮我解决这个问题。

使用的Goose版本:https://github.com/agolo/python-goose/当前版本给出了一些错误。

from goose import Goose
from requests import get
response = get('http://www.highbeam.com/doc/1P3-979471971.html')
extractor = Goose()
article = extractor.extract(raw_html=response.content)
text = article.cleaned_text
print text

Goose确实使用了几个预定义的元素,这些元素可能是查找顶部节点的一个很好的起点。如果没有找到"已知"的元素,它开始寻找top_node,这通常是一个包含许多p标签的元素。您可以阅读extractors/content.py了解更多细节。

给定的文章没有许多普通文章的特征,这些特征通常被包装在一个文章标签中,或者一个带有class和id的div标签,如"post-content"、"story-body"、"article"等。这是一个带有id = 'docText'的div标签,并且没有段落,因此Goose无法预测它的好事。

我建议你在extractors/content.pyKNOWN_ARTICLE_CONTENT_TAGS常量的开头添加这行:

KNOWN_ARTICLE_CONTENT_TAGS = [
    {'attr': 'id', 'value': 'docText'},
    ... other paths go here
]

,这里是提取的正文:

金奈,12月19日——泰米尔纳德邦政府周一任命了一名一人司法调查委员会调查原因周日发生在邦首府金奈的踩踏事件造成42人死亡造成另外37人受伤。nn宣布成立该委员会是在踩踏事件中遇难者家属的情况下发布的为这意外的悲剧而痛苦不安。nn 42个无家可归的人在分发抗洪救灾物资时,有人被踩死在泰米尔纳德邦首府的一个避难所。 n nOfficials说避难所的大门打开后,超过5000人涌了进来,造成踩踏事件。遇难者家属chitra说是管理不善导致了这场悲剧。 u2026

最新更新