如何在Nutch 2.3中将HBase作为后端抓取图像



我想从某些网站抓取图像。到目前为止,我试着修改regex-urlfilter.txt .

我改变了

:

 -.(gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|CSS|sit|SIT|eps|EPS|wmf|WMF|zip|ZIP|ppt|PP
 T|mpg|MPG|xls|XLS|gz|GZ|rpm|RPM|tgz|TGZ|mov|MOV|exe|EXE|jpeg|JPEG|bmp|BMP|js|JS)$

:

-.(css|CSS|sit|SIT|eps|EPS|wmf|WMF|zip|ZIP|ppt|PPT|mpg|MPG|xls|XLS|gz|GZ|rpm|RPM|t
gz|TGZ|mov|MOV|exe|EXE|js|JS)$

但它没有工作。我很惊讶,我没有找到任何关于使用Nutch 2.3抓取图像的文档。参考任何现有的文档将是一个很大的帮助。

为了使用Nutch获取和存储图像,您必须遵循以下步骤:

1-增加正则表达式不过滤图像格式,如jpg, jpeg, tif, gif, png等…(你已经这么做了)

2-实现一个解析图像的解析插件。有关Nutch扩展点和编写所需插件的更多信息,请参见以下链接:

http://wiki.apache.org/nutch/AboutPlugins

http://wiki.apache.org/nutch/WritingPluginExample

3-告诉Nutch关于实现的插件和使用图像文件格式:

为此,您必须遵循两个不同的步骤,首先,修改conf/parse-plugins.xml并将您实现的插件映射到图像文件格式:

<mimeType name="image/jpeg">
        <plugin id="parse-image" />
</mimeType>
<mimeType name="image/gif">
        <plugin id="parse-image" />
</mimeType>
<mimeType name="image/png">
        <plugin id="parse-image" />
</mimeType>

第二,将实现的插件添加到nutch-site.xml,以便在Nutch运行时运行。您必须将实现的插件添加到<plugin.includes>属性

最新更新