基于多代表点的大规模数据模糊聚类算法
作者:
作者单位:

(江南大学数字媒体学院,江苏无锡214122)

作者简介:

陈爱国(1975-), 男, 讲师, 博士, 从事模式识别与机器学习的研究;王士同(1964-), 男, 教授, 博士生导师, 从事人工智能和机器学习等研究

通讯作者:

CHEN Ai-guo,E-mail: agchen@jiangnan.edu.cn)

中图分类号:

TP391

基金项目:

国家自然科学基金项目(61272210);江苏省杰出青年基金项目(BK20140001);江苏省自然科学基金项目 (BK20130155)


Fuzzy clustering algorithm based on multiple medoids for large-scale data
Author:
Affiliation:

(School of Digital Media,Jiangnan University,Wuxi 214122,China.)

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    针对传统模糊聚类在大规模数据场景下, 由于内存的限制不能一次装载所有数据, 以及在通过聚类捕捉数据的潜在结构和描述各个类时仅使用单个代表点存在信息量不足的问题, 提出一种基于多代表点的大规模数据模糊聚类算法. 该算法通过对大规模数据进行分块, 在对每个数据块进行聚类时使用多个代表点描述捕捉到的数据的潜在结构和各个类信息, 并通过考虑代表点与代表点之间在聚类过程中的约束关系, 提高最后聚类结果的精度. 在模拟数据集和真实数据集上的3组实验验证了所提出算法的有效性.

    Abstract:

    For the problem that the traditional fuzzy clustering is not able to load all the data at a time because of the limited memory in the application scenario for large-scale data, and using a single medoid is insufficient to capture the underlying structure of data and describe each cluster, a fuzzy clustering algorithm based on multiple medoids for large-scale data is presented. The algorithm handles data chunk by chunk, and uses multiple medoids to represent the underlying data structure and each cluster information in one chunk, and the pairwise constraints from the relationship between two identified medoids are taken into account. These mechanisms improve the accuracy of the final clustering results. The effectiveness of the proposed algorithm is verified by three sets of experiments on a simulated dataset and two real datasets.

    参考文献
    相似文献
    引证文献
引用本文

陈爱国,王士同.基于多代表点的大规模数据模糊聚类算法[J].控制与决策,2016,31(12):2122-2130

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2015-12-02
  • 最后修改日期:2015-12-02
  • 录用日期:
  • 在线发布日期: 2016-12-19
  • 出版日期: