時間:2015-03-20 13:39:38 瀏覽:3328次
百度站長中的抓取診斷工具在很多程度上幫助站長實現了快速收錄的目的。現在百度再次發(fā)布公告在該工具組中增加了詳細錯誤說明功能,這將更加便捷站長們快速了解網站情況。那今天筆者小丹就將相關信息分享與大家。
百度站長平臺抓取診斷工具全新升級,增加抓取錯誤詳細說明,同時優(yōu)化了工具界面,幫助站長更快捷的了解網站頁面在百度spider中的抓取狀態(tài)和抓取內容,以來確定網頁在百度中的抓取是否符合預期。
升級版抓取診斷工具地址:http://zhanzhang.baidu.com/crawltools/index
抓取診斷工具,可以讓站長從百度蜘蛛的視角查看抓取內容,自助診斷百度蜘蛛看到的內容,和預期是否一致。每個站點每周可使用70次,抓取結果只展現百度蜘蛛可見的前200KB內容。
一、抓取診斷工具功能亮點:
1、模擬百度spider抓取,診斷抓取內容是否符合預期:能夠模擬PCUA和移動UA對網頁進行抓取,抓取結果能夠展現spider可見的前200KB內容,幫助站長診斷網站在百度中的抓取是否存在問題。該工具每個站點每周可使用70次。
2、能夠檢查網頁是否被加了黑鏈或隱藏文本。
3、通知百度更新網站IP:檢查百度訪問的網站IP是否正確,若抓取IP錯誤,可通過報錯通知百度更新IP。
4、增加詳細的抓取失敗說明:對抓取失敗的頁面,增加了詳細的說明,輔助站長快速解決網站問題。
二、抓取診斷工具的作用:
1、診斷抓取內容是否符合預期,譬如很多商品詳情頁面,價格信息是通過JavaScript輸出的,對百度蜘蛛不友好,價格信息較難在搜索中應用。問題修正后,可用診斷工具再次抓取檢驗。
2、診斷網頁是否被加了黒鏈、隱藏文本。網站如果被黑,可能被加上隱藏的鏈接,這些鏈可能只在百度抓取時才出現,需要用此抓取工具診斷。
3、檢查網站與百度的連接是否暢通,若是IP信息不一致,可以報錯通知百度更新IP。
三、抓取診斷工具常見錯誤類型解析
1、url規(guī)范
百度支持抓取的url長度不超過1024,如果您的鏈接長度過長,請在保證正常訪問的情況下,適當精簡,保證鏈接能被百度正常抓取和收錄。
2、重定向錯誤
重定向是指百度spider訪問鏈接時發(fā)生了跳轉,如果跳轉后的鏈接超長或者連續(xù)跳轉的次數超過5次,就會發(fā)生重定向錯誤而導致抓取失敗。
3、服務器連接錯誤
這種情況是指,由于服務器響應過慢或您的網站屏蔽了百度spider,而導致百度無法訪問您的網站。從而會導致百度無法正常收錄或者更新您網站的內容。您可能看到以下具體錯誤:連接超時、連接失敗、連接被拒、無響應、響應遭到截斷、連接重置、標頭遭到截斷、超時。
4、如何處理服務器連接錯誤?
減少動態(tài)網頁請求的過多網頁加載。如果網站為多個網址提供相同內容,則會被視為動態(tài)提供內容(例如,www.example.com/shoes.php?color=red&size=7與www.example.com/shoes.php?size=7&color=red提供的內容相同)。動態(tài)網頁的響應時間可能會很長,并會因此導致超時問題。或者,服務器可能會返回超載狀態(tài),要求百度spider放慢抓取該網站的速度。一般來說,建議您盡量使用簡短的參數并謹慎使用。
確保您網站的托管服務器沒有停止運行、超載或配置不當。如果連接問題、超時問題或響應問題仍然存在,請與您的網站托管服務提供商聯系,并考慮增強您的網站處理流量的能力。
檢查網站是否不小心屏蔽了百度spider的IP。您可能會由于系統級問題而阻止了百度訪問,例如DNS配置問題、配置不當的防火墻或DoS防護系統、內容管理系統配置問題。防御系統是保證托管服務正常運行的關鍵因素之一,并且這些系統通常會配置為自動阻止超量的服務器請求。由于百度spider發(fā)出的請求通常要比普通用戶多,因此可能會觸發(fā)這些防御系統,導致它們阻止百度spider訪問并抓取您的網站。要解決此類問題,您需要確定網站基礎架構中的哪個部分在阻止百度spider,然后取消該阻止。如果您沒有控制防火墻的權限,就需要與您的托管服務提供商聯系解決此問題。
5、robots封禁問題
在抓取診斷工具中如果返回的抓取失敗結論是robots封禁,請確認您是否對該網址設置了robots,阻止百度spider抓取網站的某些內容,如果您未使用robots文件屏蔽百度,請點擊旁邊的報錯鏈接,百度會立即更新您站點的robots信息;如果是您的誤操作導致了封禁,請及時修改robots文件,避免造成您的網站在百度收錄量和流量的下降。
6、DNS問題
DNS錯誤是指由于服務器停止運行或DNS到您網域的路由存在問題,導致百度spider無法與DNS服務器通信。
7、如何處理DNS錯誤?
確保百度能夠抓取您的網站。對重要網頁(例如您的首頁)采用抓取診斷工具,如果它能順利返回您的首頁內容,那么您就可以認為百度能夠正常訪問您的網站。
對于持續(xù)的或反復出現的DNS錯誤,請與您的DNS提供商聯系。通常情況下,您的DNS提供商即為網站托管服務提供商。
配置您的服務器,使其能夠以404或500等HTTP錯誤代碼對不存在的主機名作出響應。
8、404錯誤
一般情況下,當百度spider訪問到不存在的網頁(因為您刪除或重命名了網頁且沒有將舊網址重定向到新網頁,或者鏈接中存在拼寫錯誤)時,就會出現“未找到”狀態(tài)錯誤(通常是404 HTTP狀態(tài)代碼)。
9、訪問遭拒絕
一般情況下,百度會通過跟蹤網頁間的鏈接來查找內容。百度spider必須能夠訪問某個網頁才能抓取該網頁。如果您意外地看到了“訪問遭拒”錯誤,可能是由于以下幾種原因導致的:
(1)百度spider無法訪問您網站上的網址,因為您網站上的所有或部分內容要求用戶登錄后才能查看。
(2)您的服務器要求用戶使用代理進行身份驗證,或者您的托管服務提供商阻止百度spider訪問您的網站。
10、參數錯誤
由于請求的語法格式有誤,不符合服務器對請求的某些限制,或者請求本身存在一定的錯誤,服務器無法理解此請求,導致抓取失敗。
11、socket讀寫錯誤
當百度spider訪問服務器,進行tcp通信的時候,socket讀寫發(fā)生異常,導致數據不能正常返回。請檢查服務器連接狀況和防火墻設置是否符合預期。
12、讀取http頭或者頁面內容時失敗
您的服務器收到了我們的完整請求,但是返回信息時不完整,http頭或者響應正文發(fā)生了截斷,導致網頁內容不能正常讀取。
四、怎樣使用抓取診斷工具:
第一步:注冊并登錄百度站長平臺
第二步:添加網站并驗證歸屬,具體驗證網站歸屬方法可見幫助文檔
http://www.baidu.com/search/sitemap_help.html 。
第三步:進入站長工具頁面,選擇“抓取診斷工具”進入使用。
(轉載請注明轉自:mjyil.cn/news/n1637.htm,謝謝!珍惜別人的勞動成果,就是在尊重自己!)
24小時服務熱線:4000-135-120轉6
業(yè)務 QQ: 444961110
渠道合作: 444961110@qq.com
河北供求互聯信息技術有限公司(河北供求網)誕生于2003年4月,是康靈集團旗下子公司,也是河北省首批從事網站建設、電子商務開發(fā),并獲得國家工業(yè)和信息化部資質認證的企業(yè)。公司自成立以來,以傳播互聯網文化為已任, 以高科技為起點,以網絡營銷研究與應用為核心,致力于為各企事業(yè)單位提供網絡域名注冊、虛擬主機租用、網站制作與維護、網站推廣和宣傳、網站改版與翻譯、移動互聯網營銷平臺開發(fā)與運營、企業(yè)郵局、網絡支付、系統集成、軟件開發(fā)、電子商務解決方案等優(yōu)質的信息技術服務,與中國科學院計算機網絡信息中心、騰訊、百度、阿里巴巴、搜狗、360、電信、聯通、中國數據、萬網、中資源、陽光互聯、點點客、北龍中網、電信通等達成戰(zhàn)略合作伙伴關系。