wget grep sed 提取链接并将其保存到文件中



我需要从 http://en.wikipedia.org/wiki/Meme 下载所有页面链接,并使用一个命令将它们保存到一个文件中。

第一次使用逗号行,所以我不确定要使用的确切命令、标志等。我只知道该怎么做,不得不四处寻找 href 的含义。

wget http://en.wikipedia.org/wiki/Meme -O links.txt | grep 'href=".*"' | sed -e 's/^.*href=".*".*$/1/'

文件中链接的输出不需要采用任何特定格式。

使用 gnu grep:

grep -Po '(?<=href=")[^"]*' links.txt

或与 wget 一起

wget http://en.wikipedia.org/wiki/Meme -q -O - |grep -Po '(?<=href=")[^"]*'

你可以使用wget的蜘蛛模式。有关示例,请参阅此SO答案。

维格特蜘蛛

wget http://en.wikipedia.org/wiki/Meme -O links.txt | sed -n 's/.*href="([^"]*)".*/1/p'

但这每行只需要 1 个 href,如果超过 1 个,其他将丢失(与您的原始行相同)。你也忘记在你的原始sed第一模式中有一个组((-> )),所以1什么都不引用

相关内容

  • 没有找到相关文章

最新更新