很多時(shí)候,您會(huì)發(fā)現(xiàn)網(wǎng)站會(huì)引用了一個(gè)名為robots.txt的文件,您可以使用該文件來(lái)實(shí)現(xiàn)搜索引擎索引和爬行方面的不同目標(biāo),告知搜索引擎是否應(yīng)抓取您的網(wǎng)頁(yè)。
robots.txt是什么?
我們都知道txt后綴的文件是純文本文檔,robots是機(jī)器人的意思,所以顧名思義,robots.txt文件也就是給搜索引擎蜘蛛這個(gè)機(jī)器人看 的純文本文件。robots.txt是搜索引擎公認(rèn)遵循的一個(gè)規(guī)范文 檔,它告訴Google、百度等搜索引擎哪些網(wǎng)頁(yè)允許抓取、索引并在搜索結(jié)果中顯示,哪些網(wǎng)頁(yè)是被禁止收錄的。 搜索引擎蜘蛛 spider(Googlebot/Baiduspider)來(lái)訪問(wèn)你的網(wǎng)站頁(yè)面的時(shí)候,首先會(huì)查看你的網(wǎng)站根目錄下是否有robots.txt文件,如果有則按照里面設(shè)置的規(guī)則權(quán)限對(duì)你網(wǎng)站頁(yè)面進(jìn)行抓取和索引。
robots.txt的作用:
我們了解了什么是robots.txt,那它有什么作用,總體來(lái)說(shuō),robots.txt文件至少有下面兩方面的作用:
1、通過(guò)設(shè)置屏蔽搜索引擎訪問(wèn)不必要被收錄的網(wǎng)站頁(yè)面,可以大大減少因spider抓取頁(yè)面所占用的網(wǎng)站帶寬,小網(wǎng)站不明顯,大型網(wǎng)站就很明顯了。
2、設(shè)置robots.txt可以指定google或百度不去索引哪些網(wǎng)址,比如我們通過(guò)url重寫(xiě)將動(dòng)態(tài)網(wǎng)址靜態(tài)化為永久固定鏈接之后,就可以通過(guò)robots.txt設(shè)置權(quán)限,阻止Google或百度等搜索引擎索引那些動(dòng)態(tài)網(wǎng)址,從而大大減少了網(wǎng)站重復(fù)頁(yè)面,對(duì)SEO優(yōu)化起到了很明顯的作用。
robots.txt文件寫(xiě)法舉例說(shuō)明:
禁止Google/百度等所有搜索引擎訪問(wèn)整個(gè)網(wǎng)站 | User-agent: * Disallow: / |
允許所有的搜索引擎spider訪問(wèn)整個(gè)網(wǎng)站(Disallow:可以用Allow: /替代) | User-agent: * Disallow: |
禁止Baiduspider訪問(wèn)您的網(wǎng)站,Google等其他搜索引擎不阻止 | User-agent: Baiduspider Disallow: / |
只允許Google spider: Googlebot訪問(wèn)您的網(wǎng)站,禁止百度等其他搜索引擎 | User-agent: Googlebot Disallow: User-agent: * Disallow: / |
禁止搜索引擎蜘蛛spider訪問(wèn)指定目錄 (spider不訪問(wèn)這幾個(gè)目錄。每個(gè)目錄要分開(kāi)聲明,不能合在一起) | User-agent: * Disallow: /cgi-bin/ Disallow: /admin/ Disallow: /~jjjj/ |
禁止搜索引擎spider訪問(wèn)指定目錄,但允許訪問(wèn)該指定目錄的某個(gè)子目錄 | User-agent: * Allow: /admin/far Disallow: /admin/ |
使用通配符星號(hào)"*"設(shè)置禁止訪問(wèn)的url (禁止所有搜索引擎抓取/cgi-bin/目錄下的所有以".html"格式的網(wǎng)頁(yè)(包含子目錄)) | User-agent: * Disallow: /cgi-bin/*.html |
使用美元符號(hào)"$"設(shè)置禁止訪問(wèn)某一后綴的文件 (只允許訪問(wèn)以".html"格式的網(wǎng)頁(yè)文件。) | User-agent: * Allow: .html$ Disallow: / |
阻止google、百度等所有搜索引擎訪問(wèn)網(wǎng)站中所有帶有?的動(dòng)態(tài)網(wǎng)址頁(yè)面 | User-agent: * Disallow: /*?* |
阻止Google spider:Googlebot訪問(wèn)網(wǎng)站上某種格式的圖片 (禁止訪問(wèn).jpg 格式的圖片) | User-agent: Googlebot Disallow: .jpg$ |
只允許Google spider:Googlebot抓取網(wǎng)頁(yè)和.gif格式圖片 (Googlebot只能抓取gif格式的圖片和網(wǎng)頁(yè),其他格式的圖片被禁止; 其他搜索引擎未設(shè)置) | User-agent: Googlebot Allow: .gif$ Disallow: .jpg$ ....... |
只禁止Google spider:Googlebot抓取.jpg格式圖片 (其他搜索引擎和其他格式圖片沒(méi)有禁止) | User-agent: Googlebot Disallow: .jpg$ |
重復(fù)強(qiáng)調(diào)一下并請(qǐng)注意,您的網(wǎng)站上沒(méi)有robots.txt文件不會(huì)以任何方式損害您的網(wǎng)站。但是作為網(wǎng)站管理者必須知道網(wǎng)站使用robots.txt文件對(duì)搜索引擎來(lái)說(shuō)是友好的,因?yàn)樗试S網(wǎng)站與搜索引擎蜘蛛通信并給他們一些指示。進(jìn)而有利于蜘蛛爬蟲(chóng)抓取和收錄,希望河南網(wǎng)站建設(shè)公司小編分享對(duì)大家有幫助,感謝瀏覽!