您的位置:SEO技术站 > 搜索引擎优化 > 百度优化 > 正文阅读资讯:百度分词算法详解

百度分词算法详解

[作者:Admin| 点击: | 打印 | 关闭 ]
该是,但是由此就推论说百度采用了双向最大匹配还是太仓促了,前面文章我们也讲过,百度有两个词典,一个普通词典,一个专有词典,而且是专有词典的词汇先切分,然后将剩余片断交给普通词典去切分.所以上面的"北京华烟云"之所以被切分成,另外一个可能是:京华烟云这个词汇是在专有词典里面存储的,所以先分析,这样得出"京华烟云 ",剩下"北",没什么好切分的,所以输出.

  这里只是假设,那么是否确实"京华烟云"在专有词典呢?我们再看一个例子"山东北京华烟云",百度切分的结果是,如果"京华烟云"在普通词典,如果是反向切分,那么结果应该是,如果是正向切分应该是,无论如何都分不出.这说明什么?

  说明"京华烟云"是在那个专有词典,所以先切分出"京华烟云",然后剩下的"山东北"交由普通词典切分,明显是正向最大匹配的结果输出.当然按照我们在第一篇文章的算法推导"山东北"的切分也会得出的结论,但是明显比正向最大匹配多几个判断步骤,既然效果一样,另外一个更加简洁的方法也能说得通,那当然选择简便的方法了.所以初步判断百度采取的是正向最大匹配.

  我们继续测试采用何种分词算法,为了减少专有词典首先分词造成的影响,那么查询里面不能出现相对特殊的词汇,构筑查询"天才能量级",这里应该没有专有词典出现过的词汇,百度切分为,看来是正向最大匹配的结果.另外,如果所有查询词汇都出现在专有词典,那么采取的是何种方法?这样首先就得保证词汇都出现在专有词典,这么保证这一点呢?

  我们构造查询"铺陈晓东方",百度切分为,可以看出 "陈晓东"是在专有词典的所以先切分出来.另外一个例子 "山东京城",百度切分为,说明"东京"是在普通词典的.OK,构造查询"陈晓东京

上一页12345678910111213下一页
Tags:
您的评论
评论内容: 用户名: 验证码: 验证码 查看所有评论
·用户发表意见仅代表其个人意见,并且承担一切因发表内容引起的纠纷和责任
·本站管理人员有权在不通知用户的情况下删除不符合规定的评论信息或留做证据
·请客观的评价您所看到的资讯,提倡就事论事,杜绝漫骂和人身攻击等不文明行为

内容搜索

精彩推荐

最新资讯