专利出售信息
发明 基于N-gram模型的弹幕主题提取方法介质设备及系统(直播弹幕数据提取)【优惠一千】【特价15】
直播 弹幕 数据提取 直播 弹幕 数据提取 【直播 弹幕 数据提取】 【直播 弹幕 数据处理】 2人
G06F40/284 G06F40/216 H04N21/235 H04N21/435
摘要:本发明公开了一种基于N‑gram模型的弹幕主题提取方法、介质、设备及系统,涉及直播领域。该方法包括以下步骤:提取弹幕数据;提取表示某种特定意图的词语对应的特征,添加到自定义词库;将没有实际意义的词加入自定义停用词库;数据预处理:去除“弹幕内容”字段为空的数据;去掉“弹幕内容”字段中的标点符号;经过数据预处理的弹幕内容,采用N‑gram模型来表示,N‑gram模型表示语句中某词的出现概率与之前N‑1个词相关,N为正整数;将每条弹幕内容切分成一组词向量,依据自定义词库中的成词规则来切分每条弹幕内容,根据自定义停用词库来过滤无用的词语。本发明能够准确提取弹幕主题。
发布人员
  • 09-14
  • 09-13

免责声明:以上消息未经人工确认,本平台不担保其真实性和有效性,交易前请仔细核实。