发明名称:
基于统计词典模型的未登录词发现和分词系统及方法
专利号:
201410299453.9
发明人:
邓柯;刘军
授权公告日:
2017年08月15日
摘要:
本发明提供一种基于统计词典模型的未登录词发现和分词方法,应用于计算装置中,该方法包括:接收步骤,接收用户输入的文本;构建步骤一,构建初始词典;构建步骤二,利用EM算法和模型选择技术对初始词典进行筛选以得到最终词典;计算步骤,利用对数似然比统计量来计算最终词典中词汇的统计显著性以得到最终词典中词汇的重要性得分,并根据最终词典中词汇的重要性得分对输入文本中所有识别出来的未登录词由高到低进行排序;分析步骤,根据最终词典,通过计算和分析输入文本的每种分词方式的条件概率来实现对输入文本的分词。