如何告訴搜索引擎該抓取什么內(nèi)容?robots文件介紹
如何告訴搜索引擎該抓取什么內(nèi)容?這一點(diǎn)對網(wǎng)站優(yōu)化很有影響,下面來介紹一下robots文件介紹。
首先要了解什么是robots文件,比如,在蕪湖優(yōu)斗士的首頁網(wǎng)址后面加入“/robots.txt”,即可打開該網(wǎng)站的robots文件。
文件里顯示的內(nèi)容是要告訴搜索引擎哪些網(wǎng)頁希望被抓取,哪些不希望被抓取。因?yàn)榫W(wǎng)站中有一些無關(guān)緊要的網(wǎng)頁,如“給我留言”或“聯(lián)系方式”等網(wǎng)頁,它們并不參與SEO排名,只是為了給用戶看,此時可以利用robots文件把它們屏蔽,即告訴搜索引擎不要抓取該頁面。
蜘蛛抓取網(wǎng)頁的精力是有限的,即它每次來抓取網(wǎng)站,不會把網(wǎng)站所有文章、所有頁面一次性全部抓取,尤其是當(dāng)網(wǎng)站的內(nèi)容越來越多時,它每次只能抓取一部分。那么怎樣讓它在有限的時間和精力下每次抓取更多希望被抓取的內(nèi)容,從而提高效率呢?
此時可以利用robots文件。小型網(wǎng)站沒有該文件無所謂,但對于中大型網(wǎng)站來說,robots文件尤為重要。因?yàn)檫@些網(wǎng)站數(shù)據(jù)庫非常龐大,蜘蛛來時,要像對待好朋友一樣要給它看重要的東西,因?yàn)檫@個朋友時間精力有限,每次來都不能把所有的東西看一遍,所以就需要robots文件屏蔽一些無關(guān)些頁面。
結(jié)合蕪湖優(yōu)斗士whudows.com的文章來說,比如,我不想讓搜索引擎抓取文章,可以在圖6-35中接著寫“Disallow:/news/120.htm1”,表示禁止搜索引擎抓取該網(wǎng)頁。所以一定要對網(wǎng)站進(jìn)行robots設(shè)置哦。