淺談百度搜索引擎的中文分詞技術 |
作者:佚名 發布時間:2012-08-13 瀏覽:2272次 |
本篇文章淺析一下百度的中文分詞技術,有不足之處還望各位有心人能指出,當然,也希望可以幫助站長們更深層的理解百度搜索引擎分詞技術,做好自己的網站,獲得更好的排名。 一、百度搜索引擎中文分詞技術 百度搜索引擎中文分詞技術簡單來說,就是把中文的漢字序列切分成有意義的百度詞組。 二、百度搜索引擎分詞技術簡述 1.基于字符串匹配的分詞方法 按照一定的策略將待分析的漢字串與一個極其百度詞庫中的詞條進行匹配。 常用分詞的方法: 正向最大匹配法(由左到右的方向) 分詞測試例子:我/有意/見/分歧 反向最大匹配法(由右到左的方向) 分詞測試例子:我/有/意見/分歧 據大量測試數據統計結果表明:單純使用正向最大匹配的錯誤率為1/169,單純使用反 向最大匹配的錯誤率為1/245。逆向匹配的切分精度略高于正向匹配。 2.基于統計的分詞方法 相鄰的字同時出現的次數越多,就越有可能構成一個詞。用于系統自動識別新詞。 3.基于理解的分詞方法 在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧異現象。 三、百度搜索引擎分詞技術分析 1.最大分詞詞長 分詞技術歸納:少于等于3個中文字不切割 分詞技術歸納:對于大于等于4個漢字的詞將被分詞 2.分詞匹配算法 分詞測試查詢:查詢:“工地方向導” 正向最大匹配:工地/方向/導 反響最大匹配:工/地方/向導 百度采用 正向最大匹配算法 分詞技術歸納:首先用專用詞典采用最大正向匹配分詞,切出部分結果;剩余沒有切分交給普通詞典,同樣采取正向最大匹配分詞。 |