摘要:决策树作为一种经典的分类算法,因其分类规则简单易懂被广泛应用于医学数据分析中. 然而,医学数据的样本不平衡问题使得决策树算法的分类效果降低. 数据重采样是目前解决样本不平衡问题的常见方法,通过改变样本分布提升少数类样本的分类性能. 现有重采样方法往往独立于后续学习算法,采样后的数据对于弱分类器的构建不一定有效. 鉴于此, 提出一种基于C4.5 算法的混合采样算法. 该算法以C4.5 算法为迭代采样的评价准则控制过采样和欠采样的迭代过程, 同时依据数据的不平衡比动态更新过采样的采样倍率, 最终以投票机制组合多个弱分类器预测结果. 通过在9组UCI数据集上的对比实验,表明所提出算法的有效性,同时算法也在稽留流产数据上实现了准确的预测.