基于边界混合采样的非均衡数据处理算法
CSTR:
作者:
作者单位:

(1. 西北大学信息科学与技术学院,西安710127;2. 西北大学经济管理学院,西安710127;3. 西北大学数学学院,西安710127)

作者简介:

冯宏伟(1964-), 男, 副教授, 从事数据挖掘、图形图像处理、模式识别与人工智能等研究;姚博(1990-), 男, 硕士生, 从事数据挖掘与金融大数据分析的研究.

通讯作者:

E-mail: fengjun@nwu.edu.cn

中图分类号:

TP181

基金项目:

陕西省教育厅科学研究计划自然科学专项项目(15JK1738);陕西省自然科学基金项目(2014JQ8367).


Imbalanced data processing algorithm based on boundary mixed sampling
Author:
Affiliation:

(1. School of Information Science and Technology,Northwest University,Xián 710127,China;2. School of Economics and Management,Northwest University,Xián 710127,China;3. School of Mathematics,Northwest University,Xián 710127,China)

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    针对非均衡数据分类效果差的问题,提出一种新的基于边界混合采样的非均衡数据处理方法(BMS).首先通过引进“变异系数”找出样本的边界域和非边界域;然后对边界域中的少数类样本进行过采样,对非边界域中的多数类样本进行随机欠采样,以期达到训练数据基本平衡的目标.实验结果表明,BMS方法比其他3种流行的非均衡数据处理方法在对7个公开数据集的分类性能上平均提高了5%左右,因此,该方法可以广泛应用于非均衡数据的处理和分类中.

    Abstract:

    Aiming to solve the poor performance of imbalanced data classification, an novel imbalanced data classification algorithm based boundary mixed sampling(BMS) is proposed. This method firstly introduces coefficient of variation is to find out the boundary and non-boundary samples and then deal with them in different ways. The minority samples in boundary are over sampled while the non-boundary majority ones are under sampled to achieve a basic balance of samples. Experimental results show that the proposed method achieves the better classification performance by 5% than other three popular methods in seven UCI datasets, thus this method can be widely used in imbalanced data processing and classification.

    参考文献
    相似文献
    引证文献
引用本文

冯宏伟,姚博,高原,等.基于边界混合采样的非均衡数据处理算法[J].控制与决策,2017,32(10):1831-1836

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:
  • 最后修改日期:
  • 录用日期:
  • 在线发布日期: 2017-09-30
  • 出版日期:
文章二维码