婷婷五月不卡综合aⅴ_2018视频日韩_亚洲一线免费观看_亚洲精品在线永久

SEO百度分詞法原理!

分類:SEO技術(shù)分享 作者:豐涵科技 來源:豐涵科技 發(fā)布時(shí)間:2021-10-08 15:35:04

最近發(fā)現(xiàn)很多人對(duì)seo百度分詞還不是很了解,以至于在做關(guān)鍵詞優(yōu)化及寫網(wǎng)頁(yè)標(biāo)題時(shí)候總有遇到各種困擾,我們今天主要從分詞技術(shù)開始討論百度分詞法原理。由于百度是一個(gè)商業(yè)性質(zhì)搜索引擎,因此它的算法無法公開。我們只能將其作為黑盒和鍵入搜索詞的方法來分析分詞技術(shù)。 1、分詞算法的幾種方法 a、基于理解的分詞方法

最近發(fā)現(xiàn)很多人對(duì)seo百度分詞還不是很了解,以至于在做關(guān)鍵詞優(yōu)化及寫網(wǎng)頁(yè)標(biāo)題時(shí)候總有遇到各種困擾,我們今天主要從分詞技術(shù)開始討論百度分詞法原理。由于百度是一個(gè)商業(yè)性質(zhì)搜索引擎,因此它的算法無法公開。我們只能將其作為黑盒和鍵入搜索詞的方法來分析分詞技術(shù)。

aa.jpg

1、分詞算法的幾種方法

 a、基于理解的分詞方法

【舉例】:有意見|面|對(duì)面地談

有意見,我們根據(jù)需要會(huì)自動(dòng)把“意”跟“見”組合成“意見”而不是跟“有”組成有意見;然后加“面”那么我們就會(huì)理解成為“有意”。

再加上“對(duì)面的談”我們又會(huì)理解成為“意見”。這就是一個(gè)基于理解的分詞方法,但是機(jī)器目前還無法模擬這種思維的理解。這種分詞方法尚待研究。

 b、基于統(tǒng)計(jì)的分詞方法

【舉例】:百度搜索“PHP”,百度搜索的結(jié)果只是將關(guān)鍵詞“PHP”的所有前幾十頁(yè)的結(jié)果羅列出來。我們?cè)僭囋嚒罢n”,但是結(jié)果就不一樣,搜索結(jié)果會(huì)將“課程”也羅列在內(nèi)。這個(gè)原因在于百度基于一個(gè)統(tǒng)計(jì)的分詞方法。百度統(tǒng)計(jì)中在搜索中“課”的跟隨詞“課程”大量涌現(xiàn),因此百度自然而然地在搜索“課”的時(shí)候自認(rèn)把“課程”當(dāng)作關(guān)鍵詞。基于一個(gè)這樣的統(tǒng)計(jì)方法組成的詞還很多,簡(jiǎn)單舉幾個(gè)例子:查->查詢;學(xué)->學(xué)習(xí);題->題目等等。

c、基于字符串匹配的分詞方法

字符串的匹配分為:大小、正反兩種情況。

首先,我們看看百度是否采用最大還是最小的匹配方法。先來看看“杭州達(dá)內(nèi)科技培訓(xùn)”,搜索結(jié)果出現(xiàn)“杭州達(dá)內(nèi)科技培訓(xùn)”、“達(dá)內(nèi)科技”、“杭州達(dá)內(nèi)”三個(gè)關(guān)鍵詞。從這個(gè)搜索結(jié)果來看,百度給返回的結(jié)果是第一種結(jié)果。初步判定百度是最大匹配法則。

 

我們?cè)倏纯匆粋€(gè)正向(從左往右匹配)與(反向從有往左)的匹配方法。一起來看看這個(gè)詞:湖南大學(xué)堂屋頂。搜索頁(yè)返回的結(jié)果是“湖南大學(xué)|堂屋|頂”。采取的是第一種。同樣我們?cè)倭硗馑阉饕粋€(gè)詞來證明?!皠?qiáng)大地方法”。

正向最大匹配:劉強(qiáng)大|地|方法

反向最大匹配:劉強(qiáng)|大地|方法

返回結(jié)果是正向最大匹配。這時(shí)候我們是不是可以確認(rèn)百度是采取正向最大匹配方法。我們的搜索結(jié)果是否定的。再來看一個(gè)詞:逐鹿中原

返回的結(jié)果是第二種,出現(xiàn)這種情況的結(jié)果什么?我們知道,百度還是有一個(gè)專有詞庫(kù)的。如果逐鹿中原是專有詞庫(kù)的話,那么就無法說明這種結(jié)果是采用了反向最大匹配。所以說,我們?cè)诤竺嬖偌由?個(gè)字“子彈”。“追逐鹿中原子彈”,此時(shí)正向最大匹配分法是“追逐|鹿|中原|子彈”。反向最大匹配方法:追逐鹿中原子彈。我們百度搜索:追逐鹿中原子彈,返回結(jié)果:追|逐鹿中原|子彈。既不是正向也不是反向的,這說明逐鹿中原在百度詞庫(kù)里是一個(gè)不可分割的詞。這更加說明我沒讓你得出百度是最大正向匹配方法是正確的。

我們?cè)倏纯匆粋€(gè)詞:湖南大學(xué)堂口腔。返回結(jié)果就是:湖南|大學(xué)堂|口腔。這是個(gè)結(jié)果既可以看成是正向最大匹配,也可以看成是反向最大匹配。這個(gè)結(jié)果的原因在于上述討論到的關(guān)于統(tǒng)計(jì)的分詞算法。我們可以認(rèn)為百度會(huì)賦予一個(gè)關(guān)鍵詞的權(quán)重。倘若是不可分割的詞,那么我們可以認(rèn)為它的權(quán)重是100;反之,如果無法形成詞,則權(quán)重為0;如果一個(gè)詞有很多中分法,那么百度會(huì)另外給按每種分法得出的詞給予相應(yīng)的權(quán)重。

另外我們?cè)谖恼碌慕Y(jié)尾再提一個(gè)新詞:只能重復(fù)匹配。

什么叫只能重復(fù)匹配法,看下面這個(gè)詞:指鹿為馬到成功。百度搜索返回結(jié)果:將“馬”進(jìn)行了一個(gè)2次匹配。這就是一個(gè)智能重復(fù)匹配,一般而言,2個(gè)關(guān)鍵詞權(quán)重得分差在5以下就進(jìn)行重復(fù)匹配。

只能重復(fù)匹配是在用戶搜索的詞語中如果出現(xiàn)歧義,但又不能進(jìn)行分割的時(shí)候就會(huì)進(jìn)行只能匹配,如“春之花好月圓”,那么其實(shí)是產(chǎn)生了歧義詞,“春之花”我們從用戶搜索到它是屬于一種零食同時(shí)也是一部電影名稱。而“花好月圓”更是一個(gè)成語,所以說如何分割就成為了一個(gè)難題,如果是百度更能為用戶提供更好選擇的匹配結(jié)果,它就進(jìn)行了只能重復(fù)匹配,把花字進(jìn)行了2次重復(fù)分詞。分成了“春之花”和“花好月圓”。

【總結(jié)】百度采用智能重復(fù)匹配解決了其一問題,而關(guān)鍵詞權(quán)重解決了大多數(shù)需求問題,從而保證了多數(shù)需求得到滿足。

服務(wù)項(xiàng)目

運(yùn)營(yíng)推廣

聯(lián)系我們

深圳豐涵科技有限公司

地址:深圳市龍崗區(qū)平湖街道國(guó)際電商中心509

聯(lián)系人:于經(jīng)理

聯(lián)系電話:18129931345

售前咨詢:

18129931345