摘要:CGAN能够从数据中学习到其分布特性,被引入到不平衡数据处理中对少数类样本进行过采样,可以生成符合原始数据分布的新样本,因此比传统的重采样方法具有更好的处理效果.然而,CGAN对数据分布特性的学习易受限于样本规模,在少数类样本规模较小时不能充分学习其分布特性,难以保证生成样本的质量.针对这一问题,本文提出了一种将CGAN和SMOTEENN相结合的不平衡数据平衡化处理方法.首先,从既有的少数类样本出发,采用SMOTEENN方法生成一定规模的少数类样本,然后,在此基础上训练CGAN模型,保证其能生成符合原始少数类样本分布特征的新样本,最后,再利用CGAN重新生成符合原始少数类样本分布的新样本构建平衡数据集.为验证所提方法的有效性,基于公开的不平衡数据集开展对比实验研究.实验结果表明,相对几种经典的不平衡数据处理方法和近期文献报道的方法,所提方法在几项不平衡数据分类评价指标上表现出明显优势.