我正在考虑总结我计划建立的网站上的内容。比起一页又一页的内容,我更愿意为他们提供每个主题的摘要。
关于如何做到这一点,我有一些想法,主要是关于找到最常见的单词和写一个简短的形式。这确实有帮助,即使少一个字符也会有很大的不同。有没有人能给我一些建议或指出正确算法的正确来源?我知道我必须自己开发算法,但我在开始之前做了一些研究。
我认为这是对不同摘要方法的一个很好的概述:http://en.wikipedia.org/wiki/Automatic_summarization
NLTK工具箱也应该是非常有用的起点:http://nltk.org/,它已经被用来构建摘要器,例如https://github.com/amsqr/NaiveSumm