获得网站词频计数的最佳方法?或者是网站的一部分



很简单,我只是在寻找一种简单的方法,从给定的网站或网站的一部分提取单词频率。

我还对计算整个网站中两个给定单词之间的平均距离感兴趣。距离的单位是字。

我之所以问这个问题,是因为坦率地说,我还没有找到太多的信息来引导执行这样一个任务的直觉。我没有任何网络搜索或抓取的经验。

谢谢(我之前问过这个问题,但是格式不太好)

您可以尝试使用Scrapy。它是一个非常强大的网站删除工具,但可能需要正则表达式和XPath知识。

最新更新