基于Squeezer 算法的文本数据流聚类
DOI:
CSTR:
作者:
作者单位:

1. 北京航空航天大学 经济管理学院
2. 北京航空航天大学经济管理学院
3. 北京航空航天大学
4. 中国石油大学

作者简介:

尤薇佳

通讯作者:

中图分类号:

基金项目:

面向非常规突发事件预警的Web信息流监控与传播研究;研究型虚拟社区中知识创造与知识服务的研究;阿里巴巴青年学者支持计划


Text stream clustering based on Squeezer algorithm
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    为解决数据流聚类中的“链式数据”问题以及文本数据流存在的高维、稀疏、多主题问题, 以Squeezer 聚类
    算法为基础, 重新定义了聚类过程中类的质心、半径和判别距离. 提出了一种改进算法, 通过加入数据预处理环节来
    提高聚类精度, 通过投影聚类提高聚类效率并为簇赋予语义. 最后通过在互联网新闻语料的聚类实验, 表明了所提出
    的算法能够以较小的速度代价换来聚类效果的大幅提升, 性能显著优于Squeezer 算法.

    Abstract:

    To solve the problems of“chain data”and“high-dimension, multi-topic, large-scale text stream”in data
    stream clustering, a modified Squeezer clustering algorithm is proposed, which combines the idea of projected clustering
    and redefines the class centroid, radius, and judging distance. The preprocessing stage and the projected clustering stage
    are introduced to improve the performance significantly and attach the semantic to the clusters for better understanding
    respectively. The experiment on the Internet corpus shows that the cluster result is significantly improved at a small cost of
    speed decrease and the performance of the proposed algorithm is better than that of Squeezer algorithm.

    参考文献
    相似文献
    引证文献
引用本文

尤薇佳 刘鲁 刘丹 李明.基于Squeezer 算法的文本数据流聚类[J].控制与决策,2012,27(4):542-546

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2010-10-27
  • 最后修改日期:2011-01-17
  • 录用日期:
  • 在线发布日期: 2012-04-20
  • 出版日期:
文章二维码