识别页面上最大文本的Nokogiri策略



我正在对野外的一堆登录页进行比较。我试图调出主标题和操作调用,但页面的HTML格式当然变化很大。

我开始寻找H1、H2等,假设标题标签对应于首要性,但通常情况并非如此。渲染字体大小*可能是一个更好的指标,但这似乎很混乱,无法处理使用alt标记的图像的情况。

使用Nokogiri识别100个野生登录页的主标题有什么好策略

*此外,是否有一个用于渲染字体大小的智能选择器?

除非你有一个AI在运行,它可以确定文档中语义最重要的部分,否则你无法做到这一点。

你不能指望标签,比如标题或元标签,因为它们可能会完全丢失。

你不能指望在源中的位置,因为CSS可以把东西移动到任何地方。

而且,即使你认为你通过查看CSS已经搞定了,JavaScript也可以从你身上夺走现实,因为它可以覆盖一切,这取决于需要人类的眼睛和大脑才能理解最终呈现的页面。

因此,基本上,除非你有代码可以理解页面的内容,确定一个单词的出现频率,以及同义词和词根,然后在运行CSS和JavaScript后确定它们在页面上的位置,否则你大部分时间都是在黑暗中拍摄的。

这真的是一项艰巨的任务,很多大公司都在上面花了很多钱

相关内容

  • 没有找到相关文章

最新更新