摘要:高维不平衡数据广泛存在于社会生产的各个领域, 其特点是数据维度高以及数据类别的不平衡, 这种特性对传统分类算法的性能提出了极大的挑战. 不平衡的数据使得分类器偏向于多数类, 冗余特征导致分类性能的进一步下降. 对此, 首先针对冗余的高维特征提出基于多目标优化的特征提取算法, 考虑数据可分性和特征的泛化性能两个目标, 同时在目标内考虑数据的不平衡性; 其次, 提出基于双层优化的决策树分类算法, 将非叶子节点构建为双层优化的分类器, 上层搜索不同的特征组合, 下层求解该组合下的类别分界面; 最后, 在多个公开数据集上将所提出算法与其他算法进行对比实验验, 结果表明所提出算法在F-score和G-mean指标上明显优于其他对比算法, 验证了所提出算法的有效性.