小贝子编程

有可能用Nokogiri创建一个HTML推送解析器吗?

本文关键字：HTML 一个创建 Nokogiri 有可能 ruby parsing screen-scraping nokogiri sax
更新时间 : 2023-08-26
英文 : Is it possible to create a HTML push parser with Nokogiri?

我正在尝试解析大型HTML文档并从中提取信息，以便我可以仅使用我想要的数据创建JSON文档。我目前使用Nokogiri::HTML::SAX::解析器来解析HTML文档，它工作得很好;但是为了加快速度，我想使用更接近Nokogiri::XML::SAX::PushParser的东西，这样我就可以在下载HTML文档时开始解析。

我曾尝试使用Nokogiri在PushParser中加入HTML SAX解析器，但它一直给我语法错误，因为它仍然将输入文档视为XML。可能有一个很好的理由，为什么你不能使用推送解析器的方法与HTML，因为畸形的标签等，但我想知道是否有一种方法使用Nokogiri的PushParser与HTML文档?

2011年12月，Nokogiri添加了它的HTML推送解析器。所以我想这就回答了是否可能的问题。

有可能用Nokogiri创建一个HTML推送解析器吗?

相关内容

最新更新

热门标签：