我想从站点提取数据。我已经使用文章提取器从网站获得了信息,但是现在我想获取有关特定地方事件的信息。我想在将位置作为输入时将事件放在那个地方。例如,我想从此站点中提取信息。提取所有活动,节日等
URL url;
url = new URL(str);
InputSource is = HTMLFetcher.fetch(url).toInputSource();
BoilerpipeSAXInput in = new BoilerpipeSAXInput(is);
TextDocument doc = in.getTextDocument();
news=ArticleExtractor.INSTANCE.getText(doc);
- 考虑Apache Tika下载文本内容
- 您可以使用Stanford POS Tagger将文本解析为有意义的句子
- 和NLP可以帮助识别事件信息。
尽管写这本书听起来很简单(相信我很难)。祝你好运。:)