解析文章/评论/帖子等的HTML页面的最佳方法是什么?



是否有一些通用的或更通用的方法来解析HTML页面以提取作者姓名和信息?

一种方法是解析HTML页面的关键字,如"作者"、"用户"、"署名"等,但这似乎不是最优的。

我会利用这样一个事实,即许多网站通过注释包含它的html标签来专门调用这样的信息。

他们这样做的原因是为了帮助谷歌更好地理解数据,但也没有什么能阻止你使用它。

请查看http://schema.org/,您将找到完整的文档。

带有以下属性的标签:itemprop="author"表示它们包含某些内容的作者(它由父元素的itemscope属性限定)

相关内容

最新更新