发明 一种中文文本中基于词性融合的对抗训练的防御方法
数据检测 数据安全 网络安全 网络防护 深度学习 数据检测 数据安全 网络安全 网络防护 深度学习 数据检测 数据安全 网络安全 网络防护 深度学习 中文 文本 词性 【数据检测 数据安全 网络安全 网络防护 深度学习 中文 文本 词性】 2人
G06F40/289 G06F40/30 G06F16/35 G06F40/205 G06F40/253 G06N3/04 G06N3/08
摘要:本发明请求公开一种对抗样本词级攻击的防御方法,属于计算机技术领域;该方法利用分词工具提取中文文本的词性信息,根据不同的词嵌入方式分别将文本的语义信息和词性信息转化为语义特征和词性特征,再将两者拼接形成高联合表征作为神经网络模型的输入数据,以此加强文本中词语间的关联,有助于解决中文对抗样本中基于人类视觉局限性的常见词级攻击,即包括同音字、象形字替换所引起的未登录词现象对句子结构的破坏问题,能够提高模型对于词级攻击对抗样本识别的准确率,可以广泛的应用于现有中文自然语言处理相关任务的神经网络模型。另外,用以高级联合表征为形式的的输入样本对模型进行对抗训练提升模型的鲁棒性。