上海交通大学 图象处理及模式识别研究所, 上海 200030
决策树算法易受训练样本集中噪声和混杂区域的影响。重复剪辑近邻法能消除样本集中符合 某些先决条件的噪声, 清除混杂区域中后验概率较小的类别所包含的样本, 并在各类样本间形成符合Bayes 分类准则的界线。用它对合适的训练样本集进行筛选, 可在不损害分类准确率的同时明显地减小决策树的规模, 有助于增强决策树的可理解性和可用性, 从而提高决策树的性能。
叶晨洲, 杨 杰, 姚莉秀,等.采用重复剪辑近邻法提高决策树算法的性能[J].控制与决策,2003,18(1):96-98