从站点提取数据



我想从站点提取数据。我已经使用文章提取器从网站获得了信息,但是现在我想获取有关特定地方事件的信息。我想在将位置作为输入时将事件放在那个地方。例如,我想从此站点中提取信息。提取所有活动,节日等

URL url;
url = new URL(str);
InputSource is = HTMLFetcher.fetch(url).toInputSource();      
BoilerpipeSAXInput in = new BoilerpipeSAXInput(is);
TextDocument doc = in.getTextDocument();       
news=ArticleExtractor.INSTANCE.getText(doc);

  • 考虑Apache Tika下载文本内容
  • 您可以使用Stanford POS Tagger将文本解析为有意义的句子
  • 和NLP可以帮助识别事件信息。

尽管写这本书听起来很简单(相信我很难)。祝你好运。:)

最新更新