Robots.txt和sitemap索引文件【kekewolf】

shineboy1 2014-05-24

展開(kāi)全文

robots.txt和sitema.xml基本的東西大家隨便百度下，都會(huì)里了解的很清楚，在seo牛人網(wǎng)里kekewolf說(shuō)下robots文件、sitemap大件應(yīng)該注意的事！

【robots.txt的優(yōu)點(diǎn)】

1. 幾乎所有的搜索引擎Spider都遵循robots.txt給出的爬行規(guī)則，協(xié)議規(guī)定搜索引擎Spider進(jìn)入某個(gè)網(wǎng)站的入口即是該網(wǎng)站的robots.txt，當(dāng)然，前提是該網(wǎng)站存在此文件。對(duì)于沒(méi)有配置robots.txt的網(wǎng)站，Spider將會(huì)被重定向至404 錯(cuò)誤頁(yè)面，相關(guān)研究表明，如果網(wǎng)站采用了自定義的404錯(cuò)誤頁(yè)面，那么Spider將會(huì)把其視作robots.txt——雖然其并非一個(gè)純粹的文本文件——這將給Spider索引網(wǎng)站帶來(lái)很大的困擾，影響搜索引擎對(duì)網(wǎng)站頁(yè)面的收錄。

2. robots.txt可以制止不必要的搜索引擎占用服務(wù)器的寶貴帶寬，如email retrievers，這類(lèi)搜索引擎對(duì)大多數(shù)網(wǎng)站是沒(méi)有意義的；再如image strippers，對(duì)于大多數(shù)非圖形類(lèi)網(wǎng)站來(lái)說(shuō)其也沒(méi)有太大意義，但卻耗用大量帶寬。

3. robots.txt可以制止搜索引擎對(duì)非公開(kāi)頁(yè)面的爬行與索引，如網(wǎng)站的后臺(tái)程序、管理程序，事實(shí)上，對(duì)于某些在運(yùn)行中產(chǎn)生臨時(shí)頁(yè)面的網(wǎng)站來(lái)說(shuō)，如果未配置robots.txt，搜索引擎甚至?xí)饕切┡R時(shí)文件。

4. 對(duì)于內(nèi)容豐富、存在很多頁(yè)面的網(wǎng)站來(lái)說(shuō)，配置robots.txt的意義更為重大，因?yàn)楹芏鄷r(shí)候其會(huì)遭遇到搜索引擎Spider給予網(wǎng)站的巨大壓力：洪水般的Spider訪問(wèn)，如果不加控制，甚至?xí)绊懢W(wǎng)站的正常訪問(wèn)。

5. 同樣地，如果網(wǎng)站內(nèi)存在重復(fù)內(nèi)容，使用robots.txt限制部分頁(yè)面不被搜索引擎索引和收錄，可以避免網(wǎng)站受到搜索引擎關(guān)于 duplicate content的懲罰，保證網(wǎng)站的排名不受影響。

【溫馨提示：robots.txt帶來(lái)的風(fēng)險(xiǎn)及解決】

1. 凡事有利必有弊，robots.txt同時(shí)也帶來(lái)了一定的風(fēng)險(xiǎn)：其也給攻擊者指明了網(wǎng)站的目錄結(jié)構(gòu)和私密數(shù)據(jù)所在的位置。雖然在Web服務(wù)器的安全措施配置得當(dāng)?shù)那疤嵯逻@不是一個(gè)嚴(yán)重的問(wèn)題，但畢竟降低了那些不懷好意者的攻擊難度。

　　比如說(shuō)，如果網(wǎng)站中的私密數(shù)據(jù)通過(guò)http://www./private/index.html 訪問(wèn)，那么，在robots.txt的設(shè)置可能如下：

User-agent: *
Disallow: /private/

　　這樣，攻擊者只需看一下robots.txt即可知你要隱藏的內(nèi)容在哪里，在瀏覽器中輸入http://www./private/ 便可訪問(wèn)我們不欲公開(kāi)的內(nèi)容。對(duì)這種情況，一般采取如下的辦法：

設(shè)置訪問(wèn)權(quán)限，對(duì)/private/中的內(nèi)容實(shí)施密碼保護(hù)，這樣，攻擊者便無(wú)從進(jìn)入。
另一種辦法是將缺省的目錄主文件index.html更名為其他，比如說(shuō)abc-protect.html，這樣，該內(nèi)容的地址即變成http://www./private/abc-protect.htm，同時(shí)，制作一個(gè)新的index.html文件，內(nèi)容大致為“你沒(méi)有權(quán)限訪問(wèn)此頁(yè)”之類(lèi)，這樣，攻擊者因不知實(shí)際的文件名而無(wú)法訪問(wèn)私密內(nèi)容。
2. 如果設(shè)置不對(duì)，將導(dǎo)致搜索引擎將索引的數(shù)據(jù)全部刪除。

User-agent: *
Disallow: /
上述代碼將禁止所有的搜索引擎索引數(shù)據(jù)。

======附ZAC【這個(gè)名人你可以百度下】對(duì)自己電子商務(wù)網(wǎng)站的robots的設(shè)置：===========

# robots.txt for http://www.
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /footer.txt
Disallow: /lefter.txt
Disallow: /header.txt
Disallow: /form.txt
Disallow: /kb/print/
Disallow: /kb/comment/
Disallow: /seoblog/go/

User-agent: Googlebot
Disallow: /*/*/*/*/*/feed/
Disallow: /*/*/*/*/*/trackback/
Disallow: /seoblog/index.php?image=*
Disallow: /kb/print/
Disallow: /kb/comment/
Disallow: /seoblog/go/
Disallow: /seoblog/?r=*
Disallow: /seoblog/page/*/?*

User-Agent: Yahoo! Slurp
Disallow: /*/*/*/*/*/feed/
Disallow: /*/*/*/*/*/trackback/
Disallow: /seoblog/index.php?image=*
Disallow: /kb/print/
Disallow: /kb/comment/
Disallow: /seoblog/go/
Disallow: /seoblog/?r=*

User-Agent: MJ12bot
Disallow:

二、sitemap索引文件

Sitemap.xml文件大家都知道，這里我就說(shuō)說(shuō)sitemap索引文件！索引文件的作用是指引搜索引擎爬行你真正的sitemap文件的。一般情況下，當(dāng)你的sitemap文件至少在兩個(gè)或以上時(shí)，才建議設(shè)立sitemap索引文件。在根目錄下建立以sitemap.xml命名的索引文件指向你真正的sitemap文件。

sitemap.xml命名的索引文件建立如下：

該 sitemap索引列出了三個(gè) sitemap：

該 sitemap索引列出了三個(gè) sitemap：

<?xml version=”1.0″ encoding=”UTF-8″?>

<sitemapindex xmlns=”http://www.google.com/schemas/sitemap/0.84″>

<sitemap>

　　<loc>http://www./sitemap.xml</loc>

　　<lastmod>2009-07-23</lastmod>

</sitemap>

<sitemap>

　　<loc>http://www./xml/sitemap2.xml.gz</loc>

　　<lastmod>2009-07-23</lastmod>

</sitemap>

<sitemap>

　　<loc>http://www./xml/sitemap2.xml.gz</loc>

　　<lastmod>2009-07-23</lastmod>

</sitemap>

</sitemapindex>

<loc>標(biāo)記并用其來(lái)識(shí)別 Sitemap的位置。

<lastmod>是可選標(biāo)記，用于指示Sitemap文件的修改時(shí)間。

<sitemap>封裝單個(gè) Sitemaps 的相關(guān)信息。

<sitemapindex>會(huì)壓縮有關(guān)文件中的所有 Sitemaps 的信息。

前面這些大多數(shù)人通過(guò)網(wǎng)絡(luò)都可以了解到，對(duì)于示例中的

http://www./sitemap1.xml.gz后的gz卻有點(diǎn)不解，其實(shí)很簡(jiǎn)單，gz格式為xml的壓縮格式。gz為gzip的縮寫(xiě)，gzip最初用于UNIX系統(tǒng)的文件壓縮，現(xiàn)今已經(jīng)成為Internet 上使用非常普遍的一種數(shù)據(jù)壓縮格式，或者說(shuō)一種文件格式。

轉(zhuǎn)載請(qǐng)寫(xiě)明出處：http://www./thread-2062-1-1.html

關(guān)鍵詞：【SEO牛人網(wǎng)kekewolf】 robots.txt優(yōu)缺點(diǎn) sitemap索引文件

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶(hù)發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自： shineboy1 > 《SEO》

舉報(bào)/認(rèn)領(lǐng)