发明 一种基于科研文本的生物医学学科分类方法及装置
智慧医疗大数据/文本分类 【智慧医疗大数据/文本分类】 3人
G06F16/35 G06F40/284 G06N3/08 G06N20/10
摘要:本发明属于文本分类技术领域,特别涉及一种基于科研文本的生物医学学科分类方法及装置,方法包括获取文本数据,对文本数据进行分词、去除停用词处理后,进行缩写词的扩展、大小写转换、词形还原操作;获取每个词对应的词向量;构建改进的Inception网络,并利用该网络对词向量进行特征提取;将从训练数据中提取的特征输入支持向量机模型中,通过预测类标与训练数据的标准类标进行比较,通过反向传播更新支持向量机模型;将待预测的文本数据输入改进的Inception网络提取特征,并将提取的特征输入经过训练的支持向量机模型,得到该待预测文本数据的类标;本发明减少了计算资源消耗,提升了生物医学文本的学科分类的分类性能。