我正在尝试解析大型HTML文档并从中提取信息,以便我可以仅使用我想要的数据创建JSON文档。我目前使用Nokogiri::HTML::SAX::解析器来解析HTML文档,它工作得很好;但是为了加快速度,我想使用更接近Nokogiri::XML::SAX::PushParser的东西,这样我就可以在下载HTML文档时开始解析。
我曾尝试使用Nokogiri在PushParser中加入HTML SAX解析器,但它一直给我语法错误,因为它仍然将输入文档视为XML。可能有一个很好的理由,为什么你不能使用推送解析器的方法与HTML,因为畸形的标签等,但我想知道是否有一种方法使用Nokogiri的PushParser与HTML文档?
2011年12月,Nokogiri添加了它的HTML推送解析器。所以我想这就回答了是否可能的问题。