大规模数据集引力同步聚类
CSTR:
作者:
作者单位:

(江南大学数字媒体学院,江苏无锡214122)

作者简介:

乔颖(1992-),女, 博士生, 从事人工智能、模式识别、数据挖掘的研究;王士同(1964-), 男, 教授, 博士生导师, 从事人工智能、模式识别、数据挖掘等研究.

通讯作者:

E-mail: 654410050@qq.com

中图分类号:

TP273

基金项目:

国家自然科学基金项目(61272210,61170122);江苏省自然科学基金项目(BK20130155).


Clustering by gravitational synchronization on large scale dataset
Author:
Affiliation:

(School of Digital Media,Jiangnan University,Wuxi214122,China)

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    受Kuramoto模型启发,构造一种新的万有引力同步模型,用以解决现有同步聚类算法时间复杂度高的问题,并提出大规模数据集的引力同步聚类算法(LSCGS).首先,使用快速压缩集密度估计(RSDE)算法对大规模数据集进行压缩;然后,通过万有引力同步聚类算法对压缩数据集进行聚类,使用Davies-Bouldin指标自动寻优到最佳聚类数;最后,利用提出的剩余样本聚类(RSC)算法对除压缩集以外的剩余数据进行聚类,可以有效地区分孤立类以及噪声点.通过在大规模人造数据集、UCI真实数据集和图像数据上的实验,验证LSCGS算法的有效性,与传统同步聚类算法相比,聚类的运算成本得到大幅度的降低.

    Abstract:

    Different from the existing synchronization clustering algorithm(Sync) which is recently proposed based on Kuramoto model in physics, and referring to gravitational law, a novel clustering algorithm, called large sample clustering by gravitational synchronization(LSCGS) is proposed for large datasets. Firstly, a large scale dataset is condensed into its reduced dataset by using the reduced set density estimator method. Then, the obtained reduced dataset is clustered by using the proposed gravitational synchronization clustering model with Davies-Bouldin clustering criterion to find out the most suitable clustering results. Finally, the remaining samples in the large dataset are clustered. The proposed method can detect clusters in data of arbitrary shapes, sizes and numbers without any data distribution assumptions. Extensive experiments on the large synthetic dataset, UCI real-world datasets and image segmentations indicate that LSCGS can effectively detect the clusters of the arbitrary shape, and the proposed method achieves high clustering accuracy with lower execution time.

    参考文献
    相似文献
    引证文献
引用本文

乔颖,王士同,杭文龙.大规模数据集引力同步聚类[J].控制与决策,2017,32(6):1075-1083

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:
  • 最后修改日期:
  • 录用日期:
  • 在线发布日期: 2017-06-16
  • 出版日期:
文章二维码