wget grep sed 提取链接并将其保存到文件中

我需要从 http://en.wikipedia.org/wiki/Meme 下载所有页面链接，并使用一个命令将它们保存到一个文件中。

第一次使用逗号行，所以我不确定要使用的确切命令、标志等。我只知道该怎么做，不得不四处寻找 href 的含义。

wget http://en.wikipedia.org/wiki/Meme -O links.txt | grep 'href=".*"' | sed -e 's/^.*href=".*".*$/1/'

文件中链接的输出不需要采用任何特定格式。

使用 gnu grep：

grep -Po '(?<=href=")[^"]*' links.txt

或与 wget 一起

wget http://en.wikipedia.org/wiki/Meme -q -O - |grep -Po '(?<=href=")[^"]*'

你可以使用wget的蜘蛛模式。有关示例，请参阅此SO答案。

维格特蜘蛛

wget http://en.wikipedia.org/wiki/Meme -O links.txt | sed -n 's/.*href="([^"]*)".*/1/p'

但这每行只需要 1 个 href，如果超过 1 个，其他将丢失（与您的原始行相同）。你也忘记在你的原始sed第一模式中有一个组（(-> )），所以1什么都不引用

相关内容