全國服務(wù)熱線:400-080-4418
百度自稱是全球大中文搜索引擎,了解國內(nèi)網(wǎng)民的搜索習(xí)慣,做為中國搜索引擎的老大,很多草根站長一直在研究的它的搜索技術(shù)和排名算法,還有不少站長兄弟姐姐還要靠它的流量吃飯,為此草根網(wǎng)站的站長們對它是又愛又恨,百度能帶來很大的流量,又會無情的K站或降權(quán)。
好的,那咱們說說百度的分詞技術(shù),可能小弟有說的不對地方,請大家拍磚頭,希望大家共同進(jìn)步。沒有研究百度分詞前不明白百度為什么比google強大.其實分詞也就是切詞,百度是否拿來一句中文字符串拿來隨便切一下呢,當(dāng)然不會。那么怎么才滿足被切割的條件呢?通過下面的實驗就會發(fā)現(xiàn)如果字符串只包含小于等于3個中文字符的話,那就保留不動,比如:"節(jié)油器"這個詞,前提是一個完整的詞,百度是不會切分的,當(dāng)字符串長度大于4個中文字符的時候,百度的分詞程序就會啟動了。例如"節(jié)油器價格",看看返回結(jié)果中標(biāo)為紅字的地方,不難看出來,查詢已經(jīng)被切割成“節(jié)油器”,“價格”兩個單詞了,再試著換一個詞。例如:我們來看"汽車節(jié)油器",百度里提交查詢一下,發(fā)現(xiàn)標(biāo)紅的關(guān)鍵字都是每一個是"節(jié)油器","汽車",連續(xù)出現(xiàn)的情況,可以看到將"節(jié)油器"與"汽車"切分成兩個詞,如果我們搜"汽車節(jié)油添加劑"呢,發(fā)現(xiàn)標(biāo)題是沒有,網(wǎng)頁內(nèi)容比較完整是"汽車節(jié)油添加劑",可能是這個網(wǎng)站還沒收錄的原故,這個長尾詞被切成了"汽車"/"節(jié)油添加劑"。
那現(xiàn)我們在來研究一下百度是分詞算法,通過幾年的發(fā)展,百度的分詞算法已經(jīng)算是相當(dāng)成熟了,這其中也少不了SEOER 的功勞,有一位SEOER的前輩說過:"百度的算法有簡單的有復(fù)雜的,有正向大匹配,反向大匹配,雙向大匹配,語言模型方法,短路徑算法等等,有興趣的可以用GOOGLE去搜索一下以增加理解。“讓我們總結(jié)一下吧,這里面也有我個人的猜測, 百度擁有一個強大的詞匯數(shù)據(jù)庫,里面有我們通用所用的各種詞語比如"人名,地名,產(chǎn)品的名稱",舉個例子"幻影","汽車","節(jié)油器",這些都是詞庫中有的,在切詞時將專有名稱切出,如"添加"這個詞,詞庫中沒有,下面的采用雙向大匹配分詞算法,假如正向和反向匹配分詞結(jié)果一致當(dāng)然,就可直接輸出即可;如果兩者不一致,正向匹配一種結(jié)果,反向匹配一種結(jié)果.
百度一直自稱是全球大中文搜索引擎,但分詞技術(shù)也并無特殊,也許就是因為百度擁有一個超大的專用詞典,這個專用詞典登錄了關(guān)鍵字的名稱,如:節(jié)油,汽車,能源,油價等.這就比google強大的一個方面,google在于分詞來說,及詞庫明顯比不上百度,這正是google本身要加強的地方.
Copyright 2008 © 上海網(wǎng)至普信息科技有限公司 All rights reserved. 滬ICP備11006570號-13 滬公網(wǎng)安備 31011402007386號