婷婷五月不卡综合aⅴ_2018视频日韩_亚洲一线免费观看_亚洲精品在线永久

18129931345

位置：首頁 > 走進(jìn)豐涵 > 行業(yè)資訊 >

“百度蜘蛛”全面解析-帶你走進(jìn)搜索蜘蛛的世界！

分類：行業(yè)資訊作者：佚名來源：豐涵科技發(fā)布時間：2022-09-02 11:52:27

為大家?guī)?“百度蜘蛛” 的全面解析，幫助大家清楚的了解“百度蜘蛛”在各種場景發(fā)揮的作用，為網(wǎng)站整體運(yùn)營打下基礎(chǔ)。【抓取篇】 1、什么是Baiduspider？ A：Baiduspider也叫百度蜘蛛，是百度搜索引擎的一個自動程序，它的作用是訪問互聯(lián)網(wǎng)上的網(wǎng)頁，建立索引數(shù)據(jù)庫，使用戶能在百度搜索引擎中搜索到網(wǎng)站相關(guān)內(nèi)容。

為大家?guī)?b>“百度蜘蛛”的全面解析，幫助大家清楚的了解“百度蜘蛛”在各種場景發(fā)揮的作用，為網(wǎng)站整體運(yùn)營打下基礎(chǔ)。

【抓取篇】

1、什么是Baiduspider？

A：Baiduspider也叫百度蜘蛛，是百度搜索引擎的一個自動程序，它的作用是訪問互聯(lián)網(wǎng)上的網(wǎng)頁，建立索引數(shù)據(jù)庫，使用戶能在百度搜索引擎中搜索到網(wǎng)站相關(guān)內(nèi)容。

2、Q：如何才能識別當(dāng)前抓取是正確的百度蜘蛛？

A：有兩個方式可以判斷百度蜘蛛。

方式一：查看UA信息

如果UA信息不對，可以直接判斷為非百度搜索的蜘蛛。目前UA分為移動、PC、和小程序三個應(yīng)用場景，這三個渠道UA分別如下：

移動UA：

Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko)Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)

或

Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;+http://www.baidu.com/search/spider.html)

PC UA：

Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

或

Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

小程序UA：

Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;Smartapp; +http://www.baidu.com/search/spider.html)

方式二：雙向DNS解析認(rèn)證

第一步：DNS反查IP，開發(fā)者通過對日志中訪問服務(wù)器的IP地址運(yùn)行反向DNS查找，判斷某只spider是否來自百度搜索引擎，Baiduspider的hostname以*.baidu.com或*.baidu.jp 的格式命名，非*.baidu.com或*.baidu.jp即為冒充。

根據(jù)平臺不同驗證方法不同，如linux/windows/os三種平臺下的驗證方法分別如下：

①在linux平臺下，可以使用host ip命令反解ip來判斷是否來自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名，非 *.baidu.com 或 *.baidu.jp 即為冒充。

②在windows平臺或者IBM OS/2平臺下，可以使用nslookup ip命令反解ip來判斷是否來自Baiduspider的抓取。

③在mac os平臺下，可以使用dig 命令反解ip來判斷是否來自Baiduspider的抓取。

第二步：對域名運(yùn)行正向DNS查找。對第1步中通過命令檢索到的域名運(yùn)行正向DNS查找，驗證該域名與您日志中訪問服務(wù)器的原始IP地址是否一致，IP地址一致可確認(rèn)spider來自百度搜索引擎，IP地址不一致即為冒充。

詳情可參考文檔：《輕松兩步，教你快速識別百度蜘蛛》

3、Q：百度蜘蛛會一直抓我的網(wǎng)站嗎？

A：一般會的，若網(wǎng)站持續(xù)生產(chǎn)新資源、更新內(nèi)容等，蜘蛛會持續(xù)抓取的。需要提醒的是，若網(wǎng)站需要百度蜘蛛抓取一定不要做任何封禁哦。（封禁相關(guān)參考下文內(nèi)容）

此外，您也可以檢查網(wǎng)站訪問日志，及時判斷正確的百度蜘蛛，以防止有人惡意冒充百度蜘蛛來頻繁抓取您的網(wǎng)站。

4、Q：百度蜘蛛頻繁光顧網(wǎng)站，導(dǎo)致網(wǎng)站服務(wù)器壓力大，怎么辦？

A：若發(fā)現(xiàn)百度蜘蛛頻繁抓取，可能是因為

① 網(wǎng)站存在新生產(chǎn)資源、更新內(nèi)容待抓取更新；

② 可能存在惡意冒充百度蜘蛛，可以通過上文Q2“如何識別正常百度蜘蛛”的方法排查問題；

若百度蜘蛛抓取頻次過高，造成網(wǎng)站服務(wù)異常，可以通過搜索資源平臺-【抓取頻次】工具調(diào)整頻次。

【封禁篇】

1、Q：網(wǎng)站的部分資源不希望被百度蜘蛛訪問，該怎么做？

A：百度蜘蛛遵守互聯(lián)網(wǎng)robots協(xié)議。站長可以更新robots.txt文件，文件中明確不希望百度蜘蛛訪問資源或目錄等，并及時通過搜索資源平臺-【Robots】工具，提交robots文件。

需要注意，robots文件更新和提交后，搜索引擎需要逐漸完成更新，所以百度蜘蛛不是立即停止抓取網(wǎng)頁，請耐心等待。

2、Q：網(wǎng)站封禁百度蜘蛛，可能會帶來哪些影響？

A：網(wǎng)站資源優(yōu)質(zhì)，也沒有其他違規(guī)問題，但是存在以下情況

①沒有查詢到百度蜘蛛任何抓取記錄，

②在百度搜索中沒有得到收錄和展現(xiàn)，

③網(wǎng)站/目錄存在流量異常下降的情況，

④在搜索結(jié)果中的摘要展現(xiàn)為“存在robots封禁”字樣。

若發(fā)現(xiàn)以上情況，可以先自查是否存在封禁百度蜘蛛的問題，及時解除封禁（解除封禁參考QA7），等待恢復(fù)。

3、Q：如何解除封禁百度蜘蛛？

A：常見的封禁行為包括robots封禁、封禁百度UA、封禁百度IP這三種，可以逐一排查解決：

（1） 查看robots.txt文件，是否存在封禁記錄。（一般robots.txt文件放置在網(wǎng)站根目錄下。）

（2）robots文件無異常，進(jìn)一步排查是否存在封禁百度UA情況；

方案一：執(zhí)行 curl --head --user-agent 'Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)' --request GET 'xxxxxxx'

注：正常返回碼是200，其他情況為異常。

方案二：變更瀏覽器UA驗證；

（3）以上驗證均無異常，最后進(jìn)一步排查是否存在IP級別的封禁；

常見的IP封禁，源自網(wǎng)站的防火墻系統(tǒng)配置，需要查看防火墻配置系統(tǒng)后臺，檢查是否存在百度蜘蛛的IP級別封禁措施。

百度蜘蛛

上一篇：如何判斷一家深圳網(wǎng)站建設(shè)公司是否靠譜？
下一篇：2022年做電商，打通“邊刷邊搜”是關(guān)鍵？

欄目導(dǎo)航

熱門推薦

↓ 導(dǎo)航推薦 ↓

業(yè)務(wù)標(biāo)簽

服務(wù)項目

運(yùn)營推廣

聯(lián)系我們

深圳豐涵科技有限公司

地址：深圳市龍崗區(qū)平湖街道國際電商中心509

聯(lián)系人：于經(jīng)理

聯(lián)系電話：18129931345

友情鏈接 :
文創(chuàng)產(chǎn)品定制
彩盒印刷
網(wǎng)站建設(shè)
快遞袋廠家

售前咨詢：

18129931345

版權(quán)所有 ? 2009-2022 深圳豐涵科技有限公司 Copyright ? 2009-2021 All Rights Reserved

粵ICP備19044502號

<pre id="p3v7r"><strike id="p3v7r"><code id="p3v7r"></code></strike></pre>

<rt id="p3v7r"><nobr id="p3v7r"></nobr></rt>

<rt id="p3v7r"><u id="p3v7r"><acronym id="p3v7r"></acronym></u></rt>

<ruby id="p3v7r"><dl id="p3v7r"></dl></ruby>