您的位置:SEO技术站 > 搜索引擎优化 > 百度优化 > 正文阅读资讯:百度分词算法详解

百度分词算法详解

[作者:Admin| 点击: | 打印 | 关闭 ]
拼音提示功能么?

  最后让我们总结归纳一下百度的拼写检查系统:

  后台作业:

  (1) 前面的文章我们说过,百度分词使用的词典至少包含两个词典一个是普通词典,另外一个是专用词典(专名等),百度利用拼音标注程序依次扫描所有词典中的每个词条,然后标注拼音,如果是多音字则把多个音都标上,比如"长大",会被标注为"zhang da/chang da"两个词条.

  (2)通过标注完的 词条,建立同音词词典,比如上面的"长大",会有两个词条: zhang daà长大" , chang daà长大.

  (3)利用用户查询LOG频率信息给予每个 中文词条一个权重;

  (4)OK,同音词词典建立完成了,当然随着分词词典的逐步扩大,同音词词典也跟着同步扩大;

  拼写 检查:

  (1)用户输入查询,如果是多个子字符串,不作拼写检查;

  (2)对于用户查询,先查分词词典,如果发现有这个单词词条,OK, 不作拼写检查;

  (3)如果发现词典里面不包含用户查询,启动拼写检查系统;首先利用拼音标注程序对用户输入进行拼音标注;

  (4)对于标注好的拼音在同音词词典里面扫描,如果没有发现则不作任何提示;
(5)如果发现有词条,则按照顺序输出权重比较大的几个提 示结果;

  拼音提示:

  (1)对于用户输入的拼音在同音词词典里面扫描,如果没有发现则不作任何提示;

  (2)如果 发现有词条,则按照顺序输出权重比较大的几个提示结果;

  上面说过,经过分析得出百度的分词系统采用双向最大匹配分词,但是后来发现推理过程中存在一个漏洞,而且推导出来的百度分词算法步骤还是过于繁琐,所以进一步进行分析,看看是否前面的推导有错误.

  那么以前的分析有什么漏洞呢?

  我们推导百度分词有反向最大匹配的依据是百度将"北京华烟云"分词为,从这里看好像采用了反向最大匹配,因为正向最大匹配的结果应

上一页12345678910111213下一页
Tags:
您的评论
评论内容: 用户名: 验证码: 验证码 查看所有评论
·用户发表意见仅代表其个人意见,并且承担一切因发表内容引起的纠纷和责任
·本站管理人员有权在不通知用户的情况下删除不符合规定的评论信息或留做证据
·请客观的评价您所看到的资讯,提倡就事论事,杜绝漫骂和人身攻击等不文明行为

内容搜索

精彩推荐

最新资讯