專業(yè)的廣州網(wǎng)站建設(shè)、廣州網(wǎng)站制作公司為您服務(wù),電話:020-85548809,29883069 手機(jī)訪問(wèn)
微信關(guān)注
關(guān)注奇億廣州網(wǎng)站建設(shè)微信
網(wǎng)站導(dǎo)航
新聞中心
首頁(yè)>新聞中心>網(wǎng)站優(yōu)化

淺談百度快照抓取網(wǎng)站的原理及問(wèn)題

添加時(shí)間:2012/8/10 13:24:20    編輯:奇億網(wǎng)站建設(shè)公司

    
    網(wǎng)站在搜索引擎(SE)里的具體表現(xiàn),是每個(gè)SEO都非常關(guān)注的問(wèn)題,SEO工程師經(jīng)常根據(jù)快照來(lái)分析網(wǎng)站的狀態(tài),針對(duì)快照的更新情況來(lái)做調(diào)整,以便更好地優(yōu)化或者提升網(wǎng)站的綜合指標(biāo)?煺眨谒阉饕嬷械膽(yīng)用,為分析網(wǎng)站提供了有利的條件因素。
  我們拿百度來(lái)舉個(gè)例子,其他搜索引擎的原理都大同小異。百度快照的定義,參見(jiàn)百度搜索幫助:每個(gè)未被禁止搜索的網(wǎng)頁(yè),在百度上都會(huì)自動(dòng)生成臨時(shí)緩存頁(yè)面,稱為“百度快照”。而官方給百度快照賦予的功能就是,在查詢結(jié)果中將要打開(kāi)的網(wǎng)頁(yè)無(wú)法打開(kāi)或者載入速度很慢的時(shí)候,“百度快照”可以快速瀏覽頁(yè)面內(nèi)容。
百度快照的原理,百度搜索引擎內(nèi)部搜索程序?qū)W(wǎng)絡(luò)上的數(shù)據(jù)進(jìn)行組織處理的過(guò)程,對(duì)文件數(shù)據(jù)會(huì)進(jìn)行索引存儲(chǔ)的具體體現(xiàn)就是百度快照。通俗來(lái)講,百度獲取數(shù)據(jù)的過(guò)程,就是分發(fā)出百度蜘蛛,在整個(gè)互聯(lián)網(wǎng)通過(guò)彼此的鏈接互通情況下獲取數(shù)據(jù);而百度快照是在百度蜘蛛通過(guò)某一鏈接到達(dá)新的網(wǎng)站或單個(gè)頁(yè)面時(shí),對(duì)這個(gè)網(wǎng)站首頁(yè)或者單個(gè)頁(yè)面的數(shù)據(jù)存儲(chǔ);百度內(nèi)部機(jī)制會(huì)根據(jù)具體的算法,對(duì)數(shù)據(jù)進(jìn)行歸類索引緩存,用戶檢索時(shí),百度在通過(guò)提取數(shù)據(jù)庫(kù)服務(wù)器中索引的緩存數(shù)據(jù),就看到了的快照。
我們經(jīng)常會(huì)發(fā)現(xiàn)百度快照有時(shí)候更新,有時(shí)候卻又很久都不變,那百度快照到底有什么幾率呢,其實(shí)這一切都在服務(wù)器日志中可以看到。
  百度快照很多站長(zhǎng)在抱怨我的快照一直停留在23 24 16這樣的時(shí)間 每個(gè)月更新一次,有的甚至半年沒(méi)更新
  快照也是一個(gè)搜索引擎的附加程序作為搜索引擎的一環(huán) 所有的程序都要求是處理最優(yōu)結(jié)果,節(jié)省運(yùn)算時(shí)間為前提處理數(shù)據(jù)。所以百度對(duì)于每個(gè)網(wǎng)站都有一個(gè)快照更新的評(píng)級(jí),在百度這個(gè)現(xiàn)象很明顯,當(dāng)然對(duì)主頁(yè)和內(nèi)頁(yè)的評(píng)級(jí)也是不同的這個(gè)不多贅述
  他評(píng)級(jí)的標(biāo)準(zhǔn)就是按 幾次蜘蛛抓取的數(shù)據(jù)分析,數(shù)據(jù)大幅度更新(比較一組數(shù)據(jù),更新量大到一個(gè)值的時(shí)候)
  舉個(gè)很概念的例子:百度標(biāo)準(zhǔn)數(shù)據(jù)更新值如果是7,你頁(yè)面蜘蛛抓取第一次和第二次做對(duì)比 更新值是3不達(dá)標(biāo),第三次抓取跟第一次對(duì)比數(shù)據(jù)更新是8了,OK截取第一次和第三次之間的時(shí)間間隔。
  當(dāng)然這個(gè)是很籠統(tǒng)的說(shuō)法,百度要進(jìn)行幾次對(duì)比后取個(gè)均衡量做評(píng)判,這個(gè)就不是我們能知道的,但是這樣的一個(gè)算法的原理我們知道了
  這樣的做法就是可以讓快照程序有針對(duì)性的去更新網(wǎng)站的快照,而不是所有網(wǎng)站不分類別一起更新,這樣對(duì)運(yùn)算的時(shí)間和成本節(jié)省不少
  知道有這么個(gè)評(píng)級(jí)之后所有的事情都好辦了,這個(gè)評(píng)級(jí)百度沒(méi)有公開(kāi),目前也不知道百度對(duì)一個(gè)網(wǎng)站重新評(píng)估 更新 評(píng)級(jí)的間隔是多少時(shí)間
  但是SEO要做的事情如果是讓更新快照的頻率更高的話其實(shí)很簡(jiǎn)單
  既然我們知道原理了,我們就有針對(duì)的操作方法
  第一步 查看你的服務(wù)器日志,了解一下百度蜘蛛對(duì)于你的網(wǎng)站頁(yè)面抓取的規(guī)律
  第二步 知道蜘蛛對(duì)一個(gè)頁(yè)面抓取的時(shí)間間隔之后,列出一個(gè)內(nèi)容更新時(shí)間表
  第三步 在每相鄰兩次次蜘蛛抓取間隔中更新你的頁(yè)面內(nèi)容,集中在這個(gè)時(shí)間段內(nèi)更新(舉例:比如你本來(lái)更新內(nèi)容是10小時(shí),但是這10小時(shí)中蜘蛛已經(jīng)來(lái)過(guò)三次了那么你就要想辦法把這10小時(shí)的量更新在一次間隔中盡量壓縮-以上舉的時(shí)間只是個(gè)例子具體看網(wǎng)站具體情況)能夠頻繁的更新是最好的了
  百度快照的常見(jiàn)問(wèn)題:
  一、快照不更新。
  問(wèn)題分析:導(dǎo)入鏈接扇入面積不大,也就是網(wǎng)站的外部鏈接過(guò)少;網(wǎng)站長(zhǎng)時(shí)間不更新或更新沒(méi)有規(guī)律;對(duì)網(wǎng)站進(jìn)行改版或空間不穩(wěn)定。
  解決辦法:通過(guò)對(duì)百度快照定義原理的理解,百度只有通過(guò)鏈接抓取、索引本站數(shù)據(jù)建立快照的,為百度蜘蛛營(yíng)造更順暢的多條通路到達(dá)網(wǎng)站就是最好的解決辦法。
  二、快照更新不及時(shí)。
  問(wèn)題分析:和快照不更新問(wèn)題一樣,但在這里說(shuō)明的原因是百度的審核機(jī)制,會(huì)對(duì)網(wǎng)站數(shù)據(jù)過(guò)濾,甚至人工審核,不排除此情況導(dǎo)致的原因。
  解決辦法:同快照不更新,同時(shí)網(wǎng)站內(nèi)部不要出現(xiàn)我國(guó)特色的河蟹內(nèi)容。
  三、首頁(yè)快照回檔。
  問(wèn)題分析:對(duì)網(wǎng)站進(jìn)行改版或者空間不穩(wěn)定;網(wǎng)站本身或者鏈接網(wǎng)站被K。
  解決辦法:不要經(jīng)常對(duì)網(wǎng)站主題或者各項(xiàng)設(shè)置參數(shù)進(jìn)行變動(dòng),盡量選擇穩(wěn)定快速的空間服務(wù)商,網(wǎng)站不要頻繁使用非常規(guī)推廣手段,網(wǎng)站內(nèi)容盡量原創(chuàng)實(shí)時(shí)更新,不要大面積進(jìn)行采集。
  四、刪除快照。
  解決辦法:http://www.baidu.com/search/web_tousu.html#網(wǎng)頁(yè)快照處理
  P.S. 百度只保留文本內(nèi)容,所以,那些圖片、音樂(lè)等非文本信息,快照頁(yè)面還是直接從原網(wǎng)頁(yè)調(diào)用。如果您無(wú)法連接原網(wǎng)頁(yè),那么快照上的圖片等非文本內(nèi)容,會(huì)無(wú)法顯示。當(dāng)原網(wǎng)頁(yè)進(jìn)行了修改、刪除或者屏蔽后,百度搜索引擎會(huì)根據(jù)技術(shù)安排自動(dòng)修改、刪除或者屏蔽相應(yīng)的網(wǎng)頁(yè)快照。
  通過(guò)百度快照的觀測(cè),可以確保網(wǎng)站正常的收錄排名,給站長(zhǎng)和優(yōu)化推廣人員一項(xiàng)參考指標(biāo)。在實(shí)際操作過(guò)程中,不乏出現(xiàn)相關(guān)的其他問(wèn)題,本文不再詳細(xì)講解,但是都可以圍繞搜索引擎運(yùn)作的原理來(lái)尋找根本的原因和解決的辦法。
    百度是SEO的神,它的一舉一動(dòng)我們都要時(shí)刻注意,否則我們的網(wǎng)站就悲劇了,如果知道了它的搜索原理就好辦多了。