如何使用wget下载网站

发表于 2019-01-29 更新于 2025-02-15 分类于 Linux/GNU

下载 url:

全站下载

（一般来说，网站的页面会有很多链接，点击之后可以链接到其他页面，其他页面也可能有链接，就这样一级一级链接下去，如果要把这些所有关联的页面都下载下来)

但是大部分网站不允许你下载所有网站的内容，如果网站检测不到浏览器标识，会拒绝你的下载连接或者给你发送回一个空白网页。这个时候在 wget 后面加上 user-agent 就可以：

wget -r -p -U Mozilla https://www.gnu.org/

为了避免被网站加入黑名单，我们可以限制下载的速度以及两次下载之间的等待时间：

wget –wait=20 –limit-rate=20K -r -p -U Mozilla https://www.gnu.org/

如何只是想下载特定文件夹下的网页，使用 –no-parent:

//只下载 `/js` 下的所有页面

wget –wait=20 –limit-rate=20K –no-parent -r -p -U Mozilla https://www.gnu.org/js/default.asp

更多内容请参考 GNU Wget Manual