婷婷五月不卡综合aⅴ_2018视频日韩_亚洲一线免费观看_亚洲精品在线永久

“百度蜘蛛”全面解析-帶你走進(jìn)搜索蜘蛛的世界!

分類:行業(yè)資訊 作者:佚名 來源:豐涵科技 發(fā)布時間:2022-09-02 11:52:27

為大家?guī)?“百度蜘蛛” 的全面解析,幫助大家清楚的了解“百度蜘蛛”在各種場景發(fā)揮的作用,為網(wǎng)站整體運(yùn)營打下基礎(chǔ)。 【抓取篇】 1、什么是Baiduspider? A:Baiduspider也叫百度蜘蛛,是百度搜索引擎的一個自動程序,它的作用是 訪問互聯(lián)網(wǎng)上的網(wǎng)頁,建立索引數(shù)據(jù)庫 ,使用戶能在百度搜索引擎中搜索到網(wǎng)站相關(guān)內(nèi)容。

為大家?guī)?b>“百度蜘蛛”的全面解析,幫助大家清楚的了解“百度蜘蛛”在各種場景發(fā)揮的作用,為網(wǎng)站整體運(yùn)營打下基礎(chǔ)。


【抓取篇】

1、什么是Baiduspider?

A:Baiduspider也叫百度蜘蛛,是百度搜索引擎的一個自動程序,它的作用是訪問互聯(lián)網(wǎng)上的網(wǎng)頁,建立索引數(shù)據(jù)庫,使用戶能在百度搜索引擎中搜索到網(wǎng)站相關(guān)內(nèi)容。



2、Q:如何才能識別當(dāng)前抓取是正確的百度蜘蛛?

A:有兩個方式可以判斷百度蜘蛛。

方式一:查看UA信息

如果UA信息不對,可以直接判斷為非百度搜索的蜘蛛。目前UA分為移動、PC、和小程序三個應(yīng)用場景,這三個渠道UA分別如下:


移動UA:

Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko)Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)

Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;+http://www.baidu.com/search/spider.html)


PC UA:

Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)


小程序UA:

Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;Smartapp; +http://www.baidu.com/search/spider.html)

方式二:雙向DNS解析認(rèn)證

第一步:DNS反查IP,開發(fā)者通過對日志中訪問服務(wù)器的IP地址運(yùn)行反向DNS查找,判斷某只spider是否來自百度搜索引擎,Baiduspider的hostname以*.baidu.com或*.baidu.jp 的格式命名,非*.baidu.com或*.baidu.jp即為冒充。


根據(jù)平臺不同驗證方法不同,如linux/windows/os三種平臺下的驗證方法分別如下:

在linux平臺下,可以使用host ip命令反解ip來判斷是否來自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即為冒充。

在windows平臺或者IBM OS/2平臺下,可以使用nslookup ip命令反解ip來 判斷是否來自Baiduspider的抓取 。

在mac os平臺下,可以使用dig 命令反解ip來 判斷是否來自Baiduspider的抓取。



第二步:對域名運(yùn)行正向DNS查找。對第1步中通過命令檢索到的域名運(yùn)行正向DNS查找,驗證該域名與您日志中訪問服務(wù)器的原始IP地址是否一致,IP地址一致可確認(rèn)spider來自百度搜索引擎,IP地址不一致即為冒充。


詳情可參考文檔:《輕松兩步,教你快速識別百度蜘蛛》


3、Q:百度蜘蛛會一直抓我的網(wǎng)站嗎?

A:一般會的,若網(wǎng)站持續(xù)生產(chǎn)新資源、更新內(nèi)容等,蜘蛛會持續(xù)抓取的。需要提醒的是,若網(wǎng)站需要百度蜘蛛抓取一定不要做任何封禁哦。(封禁相關(guān)參考下文內(nèi)容)

此外,您也可以檢查網(wǎng)站訪問日志,及時判斷正確的百度蜘蛛,以防止有人惡意冒充百度蜘蛛來頻繁抓取您的網(wǎng)站。



4、Q:百度蜘蛛頻繁光顧網(wǎng)站,導(dǎo)致網(wǎng)站服務(wù)器壓力大,怎么辦?

A:若發(fā)現(xiàn)百度蜘蛛頻繁抓取,可能是因為

① 網(wǎng)站存在新生產(chǎn)資源、更新內(nèi)容待抓取更新;

② 可能存在惡意冒充百度蜘蛛,可以通過上文Q2“如何識別正常百度蜘蛛”的方法排查問題;

若百度蜘蛛抓取頻次過高,造成網(wǎng)站服務(wù)異常,可以通過搜索資源平臺-【抓取頻次】工具調(diào)整頻次。


封禁篇】

1、Q:網(wǎng)站的部分資源不希望被百度蜘蛛訪問,該怎么做?

A:百度蜘蛛遵守互聯(lián)網(wǎng)robots協(xié)議。站長可以更新robots.txt文件,文件中明確不希望百度蜘蛛訪問資源或目錄等,并及時通過搜索資源平臺-【Robots】工具,提交robots文件。

需要注意,robots文件更新和提交后,搜索引擎需要逐漸完成更新,所以百度蜘蛛不是立即停止抓取網(wǎng)頁,請耐心等待。



2、Q:網(wǎng)站封禁百度蜘蛛,可能會帶來哪些影響?

A:網(wǎng)站資源優(yōu)質(zhì),也沒有其他違規(guī)問題,但是存在以下情況

①沒有查詢到百度蜘蛛任何抓取記錄,

②在百度搜索中沒有得到收錄和展現(xiàn),

③網(wǎng)站/目錄存在流量異常下降的情況,

④在搜索結(jié)果中的摘要展現(xiàn)為“存在robots封禁”字樣。

若發(fā)現(xiàn)以上情況,可以先自查是否存在封禁百度蜘蛛的問題,及時解除封禁(解除封禁參考QA7),等待恢復(fù)。


3、Q:如何解除封禁百度蜘蛛?

A:常見的封禁行為包括robots封禁、封禁百度UA、封禁百度IP這三種,可以逐一排查解決:

(1) 查看robots.txt文件,是否存在封禁記錄。(一般robots.txt文件放置在網(wǎng)站根目錄下。)


(2)robots文件無異常,進(jìn)一步排查是否存在封禁百度UA情況;

方案一:執(zhí)行 curl --head --user-agent 'Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)' --request GET 'xxxxxxx'

注:正常返回碼是200,其他情況為異常。

方案二:變更瀏覽器UA驗證;


(3)以上驗證均無異常,最后進(jìn)一步排查是否存在IP級別的封禁;

常見的IP封禁,源自網(wǎng)站的防火墻系統(tǒng)配置,需要查看防火墻配置系統(tǒng)后臺,檢查是否存在百度蜘蛛的IP級別封禁措施。

服務(wù)項目

運(yùn)營推廣

聯(lián)系我們

深圳豐涵科技有限公司

地址:深圳市龍崗區(qū)平湖街道國際電商中心509

聯(lián)系人:于經(jīng)理

聯(lián)系電話:18129931345

售前咨詢:

18129931345