我需要从 http://en.wikipedia.org/wiki/Meme 下载所有页面链接,并使用一个命令将它们保存到一个文件中。
第一次使用逗号行,所以我不确定要使用的确切命令、标志等。我只知道该怎么做,不得不四处寻找 href 的含义。
wget http://en.wikipedia.org/wiki/Meme -O links.txt | grep 'href=".*"' | sed -e 's/^.*href=".*".*$/1/'
文件中链接的输出不需要采用任何特定格式。
使用 gnu grep:
grep -Po '(?<=href=")[^"]*' links.txt
或与 wget 一起
wget http://en.wikipedia.org/wiki/Meme -q -O - |grep -Po '(?<=href=")[^"]*'
你可以使用wget
的蜘蛛模式。有关示例,请参阅此SO答案。
维格特蜘蛛
wget http://en.wikipedia.org/wiki/Meme -O links.txt | sed -n 's/.*href="([^"]*)".*/1/p'
但这每行只需要 1 个 href,如果超过 1 个,其他将丢失(与您的原始行相同)。你也忘记在你的原始sed第一模式中有一个组((
-> )
),所以1
什么都不引用