RSS新闻聚合器如何对数据进行分类

  • 本文关键字:数据 分类 新闻 RSS rss
  • 更新时间 :
  • 英文 :


像flipboard这样的新闻聚合器是如何将他们的文章划分为"政治"、"商业"等类别的?我已经搜索过了,但是没有发现任何结果。我想这可以手动完成,但考虑到提要的数量,我发现这是不太可能的。是否有一个公共数据库包含按类别列出的RSS提要?如果不是,这是如何实现的?

这可能是一个复杂的、多步骤的过程,但总的来说:

  1. 将数据标记为段落、句子和单词。http://nlp.stanford.edu/software/tokenizer.shtml是一个可以完成此任务的工具示例。http://alias-i.com/lingpipe/是另一个例子

  2. 一旦标记化,扔掉非特定的,一般的单词(也称为"停止词"),如"a","the","ha","lol","omg"等。标记器通常具有可以识别和处理这些标记的内置方法。

  3. 识别n-gram(连在一起的单词)。例如,单词"Bay"one_answers"Area"是两个单词,但它们通常被认为是一个单词"Bay Area"。您需要识别这样的实体才能正确分类。

  4. 将剩余条目按词性分组。这可能很方便,例如,扔掉动词,副词,只使用名词和形容词进行类别分类。

  5. 最后,按类别对数据进行切片。

最新更新