使用regex在使用Nokogiri的图像src中解析换行符和美元符号



我在rails 4应用程序中使用nokogiri从网站上抓取图像,其中一些在"错误"之后给我意想不到的'$'。

例如,下面是一个示例图像url输出:

  <img src="http://x.example.com/images/detail/ln9502/1_ln-9502---
  grh_375.jpg" alt="" style="display: block;">

我怀疑是换行给我带来了麻烦。

下面是另一个:

  <img class="abc" src="http://xxx.example.com/is/image/Sample/503508739_1?$sample_size$">

我怀疑这是美元符号给我的问题。

这是我在其中一个保存图像的控制器中的内容:

  item_imageurl = page.search(library.image_selector).first.attribute('src').value(/(.|n|r)*/).to_s

我有属于一个库的项目,我在每个库中设置了css选择器。除非有更简单的解决方案,否则我可以用什么正则表达式来忽略换行符和美元符号?

您可以使用.gsub从字符串中删除新行和空白。

  item_imageurl = page.search(library.image_selector).first.attribute('src').value().to_s.gsub(/[n ]/, "")

我假设...attribute('src').value()返回src标签的内容。

对于记录,您的正则表达式匹配字符串的最后一个字符。您可能想要查看http://regex101.com/来发送您的正则表达式。

相关内容

  • 没有找到相关文章

最新更新