很简单,我只是在寻找一种简单的方法,从给定的网站或网站的一部分提取单词频率。
我还对计算整个网站中两个给定单词之间的平均距离感兴趣。距离的单位是字。
我之所以问这个问题,是因为坦率地说,我还没有找到太多的信息来引导执行这样一个任务的直觉。我没有任何网络搜索或抓取的经验。
谢谢(我之前问过这个问题,但是格式不太好)
您可以尝试使用Scrapy。它是一个非常强大的网站删除工具,但可能需要正则表达式和XPath知识。
很简单,我只是在寻找一种简单的方法,从给定的网站或网站的一部分提取单词频率。
我还对计算整个网站中两个给定单词之间的平均距离感兴趣。距离的单位是字。
我之所以问这个问题,是因为坦率地说,我还没有找到太多的信息来引导执行这样一个任务的直觉。我没有任何网络搜索或抓取的经验。
谢谢(我之前问过这个问题,但是格式不太好)
您可以尝试使用Scrapy。它是一个非常强大的网站删除工具,但可能需要正则表达式和XPath知识。
javascript python java c# php android html jquery c++ css ios sql mysql arrays asp.net json python-3.x ruby-on-rails .net sql-server django objective-c excel regex ruby linux ajax iphone xml vba spring asp.net-mvc database wordpress string postgresql wpf windows xcode bash git oracle list vb.net multithreading eclipse algorithm macos powershell visual-studio image forms numpy scala function api selenium