此語法只是告訴 Google 的抓取工具抓取包含 URL 字何頁面。
使用者代理:Bingbot
l 中的確切頁面。
robots.txt 檔案的工作原理
搜尋引擎有兩個主要目標:
運行網路爬蟲來發現內容
對該內容建立索引,以便資訊搜尋者可以找到它。
一般來說,為了搜尋網站,搜尋引擎會沿著連結從一個網 比利時電話號碼列表的好處 站轉到另一個網站,瀏覽數十億個連結和網站。這種爬行行為也稱為「蜘蛛爬行」。
一旦進入網站,在進行蜘蛛抓取之前,爬蟲就會尋找機器人。如果存在,他們會在繼續「掃描」整個頁面之前閱讀它。
如果robots文件不包含任何禁止規則或網站沒有robots文件,爬蟲會繼續搜尋網站上的其他資訊。
有關 robots.txt 檔案的簡單事實:
要找到 robots 文件,必須將其放置在網站的頂級目錄(也稱為根目錄)中。
/robots.txt 檔案是公開可用的。只需將 /robots.txt 添加到任何根域的末尾即可查看該網站的指令(如果該網站有 robots 文件!)。這意味著任何人都可以看到您設定為爬行或不爬行的頁面。因此,不要使用它們來隱藏敏感的用戶資訊。
有些機器人可能會決定忽略您的機器人。這對於惡意爬蟲尤其常見,例如電子郵件地址抓取器或惡意軟體機器人。
主域上的每個子網域都使用單獨的 robots 檔案。這意味著 example.com 和部落格.example.example.com 都應該有自己的 robots.txt