发明 一种基于维基百科双向链接的词语语义相关度判断方法
互联网信息检索/数据挖掘/自然语言 【互联网信息检索/数据挖掘/自然语言】 3人
G06F40/30 G06F40/216 G06F16/30
摘要:本发明公开了一种基于维基百科双向链接的词语语义相关度判断方法,对于任意两个词语有:S1.在维基百科数据资源库中分别获取两个词语的定位页面;S2.若定位页面为内容页面,即是义项页面,转S3;若定位页面为消歧页面,进行消岐处理,转S3;S3.计算出两个词语每一个义项页面的概念语义解释,概念语义解释为一个双向链接向量;S4.计算两个词语义项页面间的双向链接向量的余弦,获得每一对义项概念间的语义相关度,将最大值作为两个词语的语义相关度。本发明把维基百科中页面的入链接和出链接作为页面特征,构建描述概念语义的特征向量模型,并结合一种基于社会认知度的消岐策略,提高了基于维基百科链接的词语语义相关度计算的准确度。