我在rails 4应用程序中使用nokogiri从网站上抓取图像,其中一些在"错误"之后给我意想不到的'$'。
例如,下面是一个示例图像url输出:
<img src="http://x.example.com/images/detail/ln9502/1_ln-9502---
grh_375.jpg" alt="" style="display: block;">
我怀疑是换行给我带来了麻烦。
下面是另一个:
<img class="abc" src="http://xxx.example.com/is/image/Sample/503508739_1?$sample_size$">
我怀疑这是美元符号给我的问题。
这是我在其中一个保存图像的控制器中的内容:
item_imageurl = page.search(library.image_selector).first.attribute('src').value(/(.|n|r)*/).to_s
我有属于一个库的项目,我在每个库中设置了css选择器。除非有更简单的解决方案,否则我可以用什么正则表达式来忽略换行符和美元符号?
您可以使用.gsub
从字符串中删除新行和空白。
item_imageurl = page.search(library.image_selector).first.attribute('src').value().to_s.gsub(/[n ]/, "")
我假设...attribute('src').value()
返回src
标签的内容。
对于记录,您的正则表达式匹配字符串的最后一个字符。您可能想要查看http://regex101.com/来发送您的正则表达式。