专利出售信息
发明 一种基于Spark的高维稀疏文本数据聚类方法
大数据平台/分布式计算/数据挖掘 【大数据平台/分布式计算/数据挖掘】 3人
G06F16/35
摘要:本发明请求保护一种基于Spark的高维稀疏文本数据聚类方法,包括步骤:用RDD读入数据集;并用RDD接口设计出分布式稀疏向量集;分布式稀疏向量集与其所在结点的完整数据集计算相似度,按编号抽象为相似矩阵。将存放的相似矩阵对称化,并求其归一化形式和Laplace矩阵形式。4、利用SVD分解步骤3中归一化Laplace矩阵,5、步骤4构建的新矩阵作为样本输入到K‑means模型进行训练。6、利用建立的模型对测试集进行聚类。本发明提高了传统谱聚类算法在大数据集下的运算性能。
发布人员
  • 11-08
  • 11-10
  • 11-06

免责声明:以上消息未经人工确认,本平台不担保其真实性和有效性,交易前请仔细核实。