发明 一种基于词统计与WordNet的义项表示与消歧方法
大数据模型/人工智能/自然语言/知识图谱 【大数据模型/人工智能/自然语言/知识图谱】 3人
G06F40/30 G06F40/216 G06F40/247 G06F40/289 G06F16/33
摘要:本发明公开一种基于词统计与WordNet的义项表示与消歧方法,发明利用WordNet中已经整理好的在国际上广泛认可的词语义项集与同义词集作为先验知识,提出了一种基于维基百科词统计的义项向量生成方法,该方法以维基百科中作为语料,利用词统计模型训练得到初步的词向量,然后充分利用词统计向量维度词的语义信息,合并WordNet同义词的词向量,形成词语的义项向量,同时还提出了利用WordNet注解来进行义项消歧的方法,这样可以提高词语在不同语言环境下的语义计算精度,从而能够在实际应用中合理、准确地使用义项向量,并可广泛应用于自然语言处理的各种语义计算场合。