我們抓取一些網站的頁面後,會發現有的頁面中的url是相對路徑,我們直接打開這個html,格式就是亂的。需要把相對路徑的url修改為絕對路徑,難道需要手動在這些url前面加上一個域名前綴嗎?

最簡單的解決方法:
在head中使用base標籤。

瀏覽器隨後將不再使用當前文檔的 URL,而使用指定的基本 URL 來解析所有的相對 URL。
這其中包括 <a>、<img>、<link>、<form> 標籤中的 URL。

例子:

其中eg_smile.gif為相對路徑,但因為存在base href,瀏覽器會自動解析為http://www.w3school.com.cn/i/eg_smile.gif。