任何想法更多的网页元信息,我可以使用分类页面相关的一些主题



我正在做一种算法,尽可能使用所有的元信息,但不包括正文的文本内容,对某些主题(如"电影")的页面相关性进行分类。

我想知道我可以用什么来确定一个页面是否有一些关于主题的信息。

目前,我给40%的标题,30%的域名后的链接,20%的域名和10%的元关键字的重要性,但我想我可以使用更多的东西更精确。我将一些单词与一些权重进行匹配,以计算页面的相关性。

你知道我还可以用什么来计算相关性吗?我只想排除HTML本身中的文本内容,但是可以使用HTML结构。

我认为您应该考虑主菜单链接,如果是子菜单链接,那么为了使它更简单,链接。您还应该计算元数据。但我还是不知道你到底想达到什么目的。

据我所知,你正试图为网页制作一些"相关性"公式。

相关内容

  • 没有找到相关文章

最新更新