坚果 1.13 爬网脚本不起作用



我已经安装,配置并使用了Nutch 1.10,但正在尝试升级到Nutch 1.13。我在让 Nutch 爬网脚本与 Nutch v1.13 一起使用时遇到问题。

这通常适用于 v1.10

bin/crawl -i -D elastic.server.url=http://localhost:9300/search-index/ urls/ searchcrawl/  2

但是,当我尝试使用它运行 v1.13 时,我得到

Usage: crawl [-i|--index] [-D "key=value"] [-w|--wait] [-s <Seed Dir>] <Crawl Dir> <Num Rounds>
-i|--index  Indexes crawl results into a configured indexer
-D      A Java property to pass to Nutch calls
-w|--wait   NUMBER[SUFFIX] Time to wait before generating a new segment when no URLs
        are scheduled for fetching. Suffix can be: s for second,
        m for minute, h for hour and d for day. If no suffix is
        specified second is used by default.
-s Seed Dir Path to seeds file(s)
Crawl Dir   Directory where the crawl/link/segments dirs are saved
Num Rounds  The number of rounds to run this crawl for

而且我在文档中没有看到任何不同的东西......我错过了什么吗?如何使爬网脚本与 v1.13 配合使用?

经过一些更好的搜索后才找到答案。

似乎在 1.14 中,bin/crawl 脚本现在希望种子的路径前面有 -s

这有效:bin/crawl -i -D elastic.server.url=http://localhost:9300/search-index/-s 网址/搜索爬网/2

-hth 其他任何人

最新更新