限制搜尋引擎抓取網站資料的範圍（robots.txt）--SEO的技巧－平凡的幸福(備站）

今天啟用Google的網站管理工具時，發現可以測試robots的功能，
但是我不知道什麼是robots，所以就搜尋並學習一下。

原來robots是關於SEO的小技巧，就是要給搜尋引擎讀取的文字檔。
對於SEO是重要的環節之一，雖然各家搜尋引擎對於robots.txt可能沒有以前那麼重視，
但是大部分的搜尋引擎蜘蛛（spider）還是支持的。
它是放在網站根目錄（例:http://lyhpcha.blogspot.tw/robots.txt)，
其目的在於指定spider在網站上能抓取網頁的範圍的一個文字檔，
可以聲明網站中不想被搜尋引擎收錄的部分或者指定搜尋引擎只能收錄特定的部分。

robots.txt基本格式：
User-agent: *（spider名稱，*號代表全部）
Disallow: /001（Disallow:不允許搜索的範圍是/001為目錄以下）
Allow: /002 （Allow:允許搜索的範圍只有/001為目錄以下）

範例一：
User-agent: * （*號代表全部搜尋引擎）
Disallow: (空白的意思代表全部允許)
或者
User-agent: *
Allow: / (/代表允許訪問網站根目錄以下所有的資料)

範例二：僅允許Googlebot訪問
User-agent: Baiduspider
Disallow:
或者
User-agent: Baiduspider
Allow: /

範例三：禁止搜尋引擎訪問站內某些檔案：
User-agent: *
Allow: /myfile/（禁止/myfiles/目錄底下的所有檔案）

範例四：禁止搜尋引擎抓取所有圖片：
User-agent: *
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$

keven

平凡的幸福(備站）

keven 發表在痞客邦留言(0) 人氣()

E-mail轉寄

平凡的幸福(備站）

撇開習慣，發現幸福就在平凡之中。記錄我自己學習心得、工作遇到的問題與想法

限制搜尋引擎抓取網站資料的範圍（robots.txt）--SEO的技巧

歷史上的今天

留言列表

文章分類

文章搜尋

熱門文章

最新文章

我的連結

參觀人氣

新聞交換(RSS)

QR Code

POWERED BY

平凡的幸福(備站）

撇開習慣，發現幸福就在平凡之中。 記錄我自己學習心得、工作遇到的問題與想法

限制搜尋引擎抓取網站資料的範圍（robots.txt）--SEO的技巧

歷史上的今天

留言列表

B 組廣告版面

C 組廣告版面

文章分類

文章搜尋

熱門文章

最新文章

我的連結

參觀人氣

新聞交換(RSS)

QR Code

POWERED BY

撇開習慣，發現幸福就在平凡之中。記錄我自己學習心得、工作遇到的問題與想法