使用 bash 打印指向所有 pdf 的链接



我正在编写应该下载html页面并从该页面中提取指向pdf文件的所有链接的bash脚本。

我不得不说,我是 bash 的新手,所以现在我只能 grep 所有包含 <a href 的行,然后 grep 这些有pdf单词的行。

我可以随意使用awk但我不知道如何编写正确的正则表达式以仅在我想*.pdf <a href="*.pdf">获取文本。

编辑:grep "<a href="*.pdf""找不到所有指向pdf的链接,这怎么可能?例如,找不到<a href="lorem ipsum.pdf">...</a>

尝试将这一行连接到整个 html 字符串。非常适合我。

grep -io "<a[[:space:]]*href="[^"]+.pdf">" | awk 'BEGIN{FS="""}{print $2}'

最新更新