我正在尝试清理一个HTML文件,但它无法正常工作。除了段落和换行标记外,我希望所有内容都是纯文本。这是我的清理代码(圆点表示类中与问题无关的其他代码):
.
.
.
include ActionView::Helpers::SanitizeHelper
.
.
.
def remove_html(html_content)
sanitized_content_1 = sanitize(html_content, :tags => %w(p br))
sanitized_content_2 = Nokogiri::HTML(sanitized_content_1)
sanitized_content_2.css("style","script").remove
return sanitized_content_2
end
它工作不正常。这是函数从中读取输入的原始HTML文件,这是它返回的"净化"代码。它将留在CSS标记、JavaScript和HTML注释标记的正文中。它可能也会在其他我没有注意到的东西中留下。请建议如何彻底删除除段落和换行标记之外的所有CSS、HTML和JavaScript?
我认为你不想对它进行消毒。消毒会剥离HTML,留下文本,除了你认为可以的HTML元素。它旨在允许用户输入字段包含一些标记。
相反,您可能想要解析它。例如,下面将在给定的html字符串中打印<p>
标记的文本内容。
doc = Nokogiri::HTML.parse(html)
doc.search('p').each do |el|
puts el.text
end
您也可以使用CGI命名空间进行清理。
require 'CGI'
str = "<html><head><title>Hello</title></head><body></body></html>"
p str
p CGI::escapeHTML str
运行这个脚本,我们得到以下结果。
$ ruby sanitize.rb
"<html><head><title>Hello</title></head><body></body></html>"
"<html><head><title>Hello</title></head><body></body></html>"