考虑概念漂移的数据驱动证据推理决策方法
薛旻 1,2, 王晓婧 1,2, 付超 1,2, 刘卫勇 3     
1. 合肥工业大学 管理学院,合肥 230009;
2. 过程优化与智能决策教育部重点实验室,合肥 230009;
3. 中国科学技术大学附属第一医院 超声科,合肥 230001
摘要:面向信息时代的决策问题, 数据驱动的决策方法日益成为主流. 然而, 数据的长期累积促使概念漂移现象不断涌现. 针对动态决策环境下存在的概念漂移现象, 提出一种考虑概念漂移的数据驱动证据推理决策方法. 首先, 考虑历史决策数据中概念漂移的特异性, 运用早期漂移检测思想以及累计和控制图检测方法, 能够有效检测决策数据中存在的细微漂移; 然后, 基于此, 运用证据推理融合算法, 提出双重集成策略进行漂移适应, 先基于属性权重进行局部集结, 获得局部最优决策结果, 进而定义数据局部贡献度进行全局集结, 以实现兼顾模型精度、动态适应性和可解释性的全局最优决策; 最后, 将所提出方法应用于安徽省合肥市某三甲医院超声科乳腺结节辅助诊断问题中, 验证其有效性和实用性.
关键词数据驱动决策    证据推理    概念漂移    医疗辅助诊断    
Data-driven evidential reasoning-based decision-making method considering concept drift
XUE Min 1,2, WANG Xiao-jing 1,2, FU Chao 1,2, LIU Wei-yong 3     
1. School of Management,Hefei University of Technology,Hefei 230009,China;
2. Key Laboratory of Process Optimization and Intelligent Decision-making of Ministry of Education,Hefei 230009,China;
3. Department of Ultrasound,The First Affiliated Hospital of University of Science and Technology of China,Hefei 230001,China
Abstract: In the information era, data-driven decision-making methods have become mainstream. At the same time, the long-term accumulation of data has led to the growing presence of concept drift. To address the problem of concept drift in dynamic decision environments, a data-driven evidential reasoning decision-making method is proposed. First, aiming to handle the subtle nature of drift in historical decision data, the method integrates the idea of early drift detection and applies the cumulative sum control chart method (CUSUM) to identify potential drift within the data. Based on this, a dual-layer integration strategy is then designed to adapt concept drift by using evidential reasoning aggregation algorithm. The attribute weights are learned to be applied to aggregate local information to obtain local optimal decision results. Further, the contribution scores of local data are defined to aggregate global information to generate a final decision, which balances accuracy, adaptability, and interpretability of the decision results. Finally, the proposed method has been applied to solve a real problem of breast nodule auxiliary diagnosis from a tertiary hospital in Hefei, Anhui Province, which verifies the effectiveness and applicability of the proposed method.
Keywords: data-driven decision making    evidential reasoning    concept drift    medical auxiliary diagnosis    
0 引 言

在当今快速发展的社会背景下, 决策问题日益复杂, 决策者为了制定符合利益需求的最优方案, 往往需要从多个角度对各类备选方案进行综合评估, 以获得尽可能客观、科学的判断结果. 当前, 经典的决策方法主要包括多标准决策方法[1-3]、模糊决策方法[4-5]以及证据推理(ER)决策方法[6-7]等, 国内外众多学者围绕上述方法已开展了深入研究, 并取得了较为系统和成熟的理论成果, 其中证据推理决策方法起源于Dempster-Shafer证据理论, 能够实现多源证据的有效融合[8-11]. 信念分布作为一种灵活的信息表达机制, 借助分布式等级框架, 有效表征了不确定性条件下的评估信息. 凭借其在处理不确定性问题上的独特优势, 证据推理决策方法已广泛应用于医疗辅助诊断[12-13]、故障分析[14]、系统调度[15]、灾难预警[16]等复杂实际决策场景.

随着历史决策数据的不断累积, 数据驱动的证据推理决策方法应运而生, 旨在深入挖掘历史数据中的潜在信息, 为决策者提供更加高效、精准的支持, 帮助其在复杂多变的动态环境中做出合理的判断. 近年来, 数据驱动的证据推理决策方法已在多个领域得到广泛应用, 在甲状腺结节的辅助诊断[17]、医生行为分析[18]、电子政务绩效评估[19]等实际问题中均取得了良好成效. 该方法依托先进的信息技术, 能够深度挖掘历史数据中的模式、特征和偏好信息, 从而为决策提供更科学、可靠的依据. 尽管数据驱动的证据推理决策方法在诸多应用场景中展现出优异表现, 但是, 其核心依赖于从历史数据中学习得到的模型和偏好[20]. 然而, 现实决策环境具有一定的时间演变特性, 数据的分布、特征以及决策标准可能会随着时间逐渐发生变化. 随着时间推移, 早期数据所蕴含的信息往往无法准确反映最新的决策需求和数据规律. 此时, 基于静态数据训练的传统模型易面临性能退化的风险. 这种由于数据分布变化导致模型性能下降的现象被称为“概念漂移”(concept drift)[21]. 若无法及时识别并有效适应概念漂移, 模型将难以在动态环境中保持有效性和稳定性, 甚至会引发错误决策[22]. 因此, 亟需探索一种具备概念漂移适应能力的改进方法, 以提升决策模型在动态环境下的应用效果.

随着决策者知识和经验的不断积累, 所处决策情境及其涉及的特征和信息在不断变化, 早期历史数据逐渐难以准确刻画未来的真实环境. 这一现象正是概念漂移的具体体现. 在模型训练过程中, 概念漂移会导致原本表现良好的模型精度逐渐下降, 即基于历史数据训练的模型难以适应数据分布发生变化的新环境. 基于这一特点, 若能够对概念漂移进行有效检测并及时采取适应策略, 则将有助于动态调整决策模型, 从而制定出更符合当前数据特征的决策方案. 然而, 当前仍然面临两大关键挑战:

1)决策数据的特征和分布变化通常表现为细微且渐近的演化过程, 如何将经典漂移检测方法与实际决策数据有效结合, 以精准地捕捉潜在的漂移现象, 是亟待解决的重要问题;

2)证据推理方法虽然具备良好的可解释性, 但是, 在漂移适应过程中, 如何选择合适的适应机制, 在提升模型精度、缓解漂移负面影响的同时, 确保模型的可解释性和透明度, 同样是迫切需要突破的核心难题.

为应对上述挑战, 本文提出一种考虑概念漂移识别与适应的数据驱动证据推理决策方法. 针对细微概念漂移的检测, 引入早期漂移检测方法(EDDM)的思想, 首先, 对整体历史数据进行预处理, 初步划分为若干具有不同数据特性的数据子段; 然后, 采用累积和控制图(CUSUM)检测法对各数据段进行漂移检测, 以提升检测的灵敏度和准确性, 从而确保漂移识别的有效性和可靠性; 接着, 针对漂移适应与可解释性兼顾的问题, 设计双重集成机制; 最后, 通过设置数据段贡献度, 所提出方法能够根据漂移检测结果对各数据段进行有效区分, 并在局部证据推理融合的基础上, 对整体预测结果实施二次贡献度集成. 相比于传统粗粒度集成策略, 该机制在保留证据推理方法可解释性优势的同时, 能够增强模型在动态环境下的适应能力.

为验证所提出方法的有效性和实用性, 将所提出方法应用于安徽省合肥市某三甲医院超声科医生的乳腺结节辅助诊断问题中. 对比实验结果表明, 所提出方法能够有效提高决策模型精度, 并增强模型在动态决策环境下的适应性.

1 证据推理决策建模

证据推理方法是解决多属性决策问题的有效手段. 在此方法中, 信念分布能够全面刻画决策者的偏好信息, 进而支持更加合理的决策分析. 本节将介绍基于信念分布的证据推理方法在多属性决策问题中的建模过程.

假定有$T $个待评估方案$a_l (l = 1,2, \ldots, T)$, 需要在$L $个属性$e_i (i = 1,2, \ldots, L)$上进行综合评价. 根据历史决策数据, 可确定各属性的权重$w_i (i =1, 2,\ldots, L)$. 评估等级框架为$\varOmega = \{H_1, H_2, \ldots, H_N\} $, 表示从最差到最优依次排列的$N $个评估等级. 基于给定评估框架, 决策者在属性$e_i $上针对方案$a_l $进行评估, 评估结果表示为$B(e_i(a_l)) = \{(H_n, \beta_{n,i}(a_l)) $, $n = 1, 2,\ldots, N$; $(\varOmega, \beta_{\varOmega,i}(a_l))\} $. 其中: $(\beta_{\varOmega,i}(a_l))(0 \leqslant \beta_{n,i}(a_l) \leqslant 1)$为在等级$H_n $上的信念度, $\beta_{\varOmega,i}(a_l) $即为全局无知的信念度, 满足$\displaystyle\sum_{n=1}^N \beta_{n,i}(a_l) \leqslant 1 $, 同时, $\beta_{\varOmega,i}(a_l) = 1 - \displaystyle\sum_{n=1}^N \beta_{n,i}(a_l) $. 若$\displaystyle\sum_{n=1}^N \beta_{n,i}(a_l) = 1 $, 则认为信念分布为完全的; 否则, 认为其为不完全信念分布[23].

获得关于方案$a_l $在所有属性上的不同信念分布后, 可采用证据推理融合算法[24]$L $条信念分布进行集结, 得到方案$a_l $在所有属性上的总体评估为

$\begin{split} &B(a_l) =\\ &\{(H_n, \beta_n(a_l)), n = 1,2, \ldots, N; (\varOmega, \beta_\varOmega(a_l))\}.\end{split}$

与该方案对应的金标准可表示为

$\begin{split} &P(a_l) = \\ &\{(H_n, \vec{\beta}_n(a_l)), n = 1,2, \ldots, N; (\varOmega, \vec{\beta}_\varOmega(a_l))\}.\end{split}$

为实现方案间的比较和排序, 引入等级效用$u(H_n) $[25-26], 并据此计算每个方案的期望效用. 然而, 尽管证据推理方法在静态决策环境下能够有效整合多源信息, 实现对决策方案的合理评价, 但是, 在实际应用中, 决策环境并非一成不变. 随着时间推移或外部条件的变化, 决策所依赖的数据特征、属性权重乃至信念分布均可能发生演化. 这种由数据特性变化所引发的推理模型性能下降的现象, 被称为概念漂移. 概念漂移的存在对数据驱动的证据推理决策提出了新的挑战. 若未能及时识别并应对这一问题, 则将显著影响决策的准确性和可靠性. 因此, 如何在动态环境中保持决策模型的适应性和鲁棒性, 有效应对概念漂移带来的挑战, 并进一步提升模型的决策精度, 已成为当前基于数据驱动的证据推理决策方法亟需突破的核心问题.

2 考虑概念漂移的数据驱动证据推理决策方法

针对上述问题, 本文提出一种考虑概念漂移的数据驱动证据推理决策方法. 该方法旨在应对决策数据中的概念漂移问题, 并通过优化决策模型的适应性, 提升其在动态环境中的表现. 接下来, 将详细介绍该方法的设计框架及其关键步骤.

2.1 方法框架

为应对动态决策场景中存在的概念漂移问题, 本节提出一种考虑概念漂移检测和概念漂移适应的数据驱动证据推理决策方法, 方法框架如图1所示.

图 1 考虑概念漂移的数据驱动证据推理决策方法框架

所提出方法框架由3部分组成, 分别为漂移预处理层、漂移检测层和漂移适应层. 经规范化处理的决策数据在时序上按照一定比例划分为训练集、验证集和测试集.

1)在漂移预处理层, 基于验证集数据, 利用差分进化算法(DE)优化得到一组符合当前数据特征的属性权重. 然后, 采用该组权重对训练集进行预测, 并结合早期漂移检测方法的思想, 对训练集进行分段处理, 从而形成若干适用于后续漂移检测的数据段.

2)在漂移检测层, 针对预处理阶段划分的数据段, 利用验证集优化出的权重对其进行分段预测, 并依据各数据段的预测表现计算一系列权重性能指标. 通过对性能指标变化的综合监测, 为后续漂移检测提供基础数据支持. 鉴于决策数据的动态变化特性, 漂移检测层选用了CUSUM方法作为漂移检测方法. 与传统检测方法相比, CUSUM能够对微小的漂移变化保持较高的灵敏度, 适用于捕捉决策数据中潜在且渐近式的概念漂移. 最后, 通过设定合理的漂移检测阈值, CUSUM方法对权重表现指标序列进行动态监测, 一旦累计偏差超过设定阈值, 即判定发生漂移并记录漂移数据段索引.

3)在漂移适应层, 首先针对各数据段分别应用DE算法进行属性权重优化, 获得针对每个数据段的最优权重组; 然后利用各自的权重组对验证集数据进行反向预测, 依据各数据段在验证集上的预测性能, 确定对应的数据段贡献度. 在确定贡献度后, 漂移适应层实施双重集结机制: 第1重集结基于各段属性权重和等级效用, 采用证据推理方法对决策数据进行集成, 得到各数据段分别对同一决策样本的预测结果; 第2重集结则结合数据段的贡献度, 对第1重集结产生的多个预测结果进行进一步集成. 这一双层集结机制兼顾了证据推理可解释性与漂移适应灵活性.

2.2 漂移预处理

概念漂移是指随着时间的推移, 数据特性或数据分布发生不可预见的变化, 从而导致之前表现良好的预测模型不再适用[27-28]. 由于概念漂移常常表现为局部性、渐近性以及不可预知性, 单纯依赖整体数据统计特性进行漂移检测, 往往难以实现对微小变化的及时响应. 为增强模型对局部漂移现象的感知能力, 有必要在漂移检测前进行漂移预处理.

鉴于此, 漂移预处理层引入了数据段划分机制, 旨在将训练集划分为具有不同数据特性的子段, 以识别其中可能存在概念漂移的区域. 考虑到决策数据通常呈现出时间演进趋势, 越接近当前时点的数据, 越能够反映决策者最新的行为模式和偏好, 因此, 在训练集、验证集和测试集的时序划分中, 可将测试集视为当前决策习惯的直接体现, 验证集则作为次新数据, 相较于训练集更贴近当前的决策模式. 因此, 所提出方法以验证集数据为参照基准, 通过评估训练集在验证集最优权重下的预测表现, 分析其与当前决策偏好的契合程度. 若训练集中的某些数据片段在该权重配置下表现偏离明显, 则表明其数据特性可能已脱离当前的决策逻辑, 可据此判定该部分存在潜在概念漂移的可能. 由此, 实现对训练集的合理划分, 为后续漂移检测和适应提供支撑.

所提出方法基于DE算法进行属性权重优化, DE算法具备强大的全局寻优能力、简单的参数设置、良好的鲁棒性以及对复杂优化问题的适应性, 其通过差分变异产生新个体, 通过交叉引入多样性, 通过选择保留更优解, 逐代进化以逼近全局最优解[29]. 利用DE算法优化出的属性权重$ \tilde{w}_i$进行预测, 得到的预测结果可记为$ \hat{B}(a_l)$, 实际金标准为$P(a_l) $, 优化的目标函数为

$ {\rm{MIN}}~ F =\frac{1}{T}\sum\limits_{l = 1}^T {D( {\hat B( {{a_l}} ),P( {{a_l}} )} )} ; $ (1)
$ {\rm s.t.}~0\leqslant w _i \leqslant 1, $ (2)
$ ~~~~~\sum\limits_{i = 1}^L {{w_i}} = 1, $ (3)
$\begin{split} &~~~~~D(B(a_{l}),P(a_{l}))=\\ &~~~~~\Big(\sum\limits_{n = 1}^{N - 1} \sum\limits_{m = n + 1}^N {( {{\beta _n}({a_l}) - {{\vec \beta }_n}({a_l})} )^2}\times\\ &~~~~~{( {{\beta _m}({a_l}) - {{\vec \beta }_m}({a_l})} )^2}( {u( {{H_n}} ) - u( {{H_m}} )} )\Big) ^{\frac{1}{2}} . \end{split}$ (4)

基于验证集数据, 结合式(1) $\sim $ (4)可优化得到该数据集对应的最优属性权重$\tilde{w}_i^{ {\rm val }}$. 随后, 为监测训练集数据在$\tilde{w}_i^{ {\rm val }}$下的预测表现, 并据此进行数据段划分处理, 所提出方法引入了早期漂移检测方法(EDDM)的思想. EDDM作为一种经典且高效的早期漂移检测技术, 主要关注连续预测错误样本$r_e $$r_{e+1} $之间的间隔$d_e $的变化. 其基本假设如下: 在模型稳定阶段, 预测错误之间的间隔通常较大且波动较小; 而一旦出现概念漂移, 错误间隔将逐渐缩短, 同时, 伴随着误差间隔的方差增加[30]. 基于这一机制, EDDM能够通过监测错误间隔的动态变化, 敏锐地捕捉到模型性能的轻微退化, 进而实现对微小、渐近式漂移现象的高灵敏度检测. EDDM关键步骤如下所示:

$ {d} _{ {e} } = {r} _{ {e} {+1}} - {r} _{ {e} } {-1}. $ (5)
$ p_{k} = \frac{{\displaystyle\sum\limits_{e = 1}^k {{d_e}} }}{k} . $ (6)
$ s_{k} =\sqrt {\frac{{\displaystyle\sum\limits_{e = 1}^k {{{( {{d_e} - {p_k}} )}^2}} }}{k}} . $ (7)
$ p _ {\max } =\max ( {p} _{ {k} }). $ (8)
$ {s} _{ {\max } } =\max ( {s} _{ {k} } ). $ (9)
$ 异常间隔= \left\{\begin{aligned} & 1,~ ( {p_k} + {s_k} ) / ( {{p_{\max}} + {s_{\max}}} ) < \alpha ; \\ & 0,~ {\rm{otherwise }} . \end{aligned} \right. $ (10)

其中: $p_{\max}$$s_{\max}$分别为历史观测中间隔均值和标准差的最大值, 表示模型性能处于最佳且最平稳状态时的统计特性; 阈值参数$\alpha $则作为判别依据, 用于判断当前模型是否存在潜在概念漂移的可能性. 在本节中, 该阈值主要作为漂移指示器, 依据当前观测到的错误间隔变化, 判断数据是否表现出异常波动, 从而确定该间隔是否为异常间隔.

基于上述检测标准, 由式(5) $\sim $ (10)可识别出训练集中所有的异常间隔, 记为集合$D =\{(l_1, u_1), (l_2, u_2),\ldots, (l_V, u_V)\} $. 其中: $(l_j, u_j) $为第$j $个异常间隔${\rm ad}_j $; $l_j $$u_j $分别为该异常间隔对应的下界和上界样本索引, 满足$l_j < u_j $, 且$l_1 < l_2 < \ldots < l_V $. 为实现基于异常间隔的训练数据划分, 首先设定初始索引$l_0 = 0 $, 并记训练集样本总量为$T $. 据此, 将训练数据划分为连续的$V+1 $个子段, 第$j $个数据段$S_j (1 \leqslant j\leqslant V) $对应的样本索引范围为$S_j =\{l_{j-1}+1, l_{j-1}+2,\ldots, l_j\} $, 最后一段$S_{V+1} $的样本索引范围为$S_{V+1}= \{l_V+1, l_V+2, \ldots, T\} $. 基于此, 可开展后续漂移检测工作.

2.3 漂移检测

按照第2.2节所示, 完成数据段划分后, 接下来需要针对划分后得到的数据段构建相应的指标序列, 以支撑概念漂移的检测分析. 在经典概念漂移检测研究中, 常用的漂移性能指标包括错误率(error rate)、准确率(accuracy)、线性四比率(linear four rates)、平均绝对误差(MAE)等[31-32]. 综合考虑指标的适应性和监测效果, 所提出方法选取MAE作为漂移检测的主要指标之一. MAE具有良好的普适性, 能够有效适应不同数据分布变化[33], 且在一定程度上对噪声数据具有天然的抑制作用, 从而能够更加稳定地监测数据中较为平缓的性能退化趋势. 特别是在渐近式概念漂移环境下, MAE能够以较小的波动反映整体误差水平的变化, 避免因局部极端样本导致的误判. 然而, 单一采用MAE作为检测指标可能存在一定的灵敏度不足问题, 尤其是在面对突发性或剧烈波动的漂移时. 为此, 所提出方法进一步引入均方根误差(RMSE)作为辅助检测指标. RMSE通过对误差平方求和后取平方根的计算方式, 能够放大预测误差对于整体指标的影响, 因此, 在模型性能退化的早期阶段, 保证对异常波动表现出更高的响应灵敏度和检测敏感性. 联合采用MAE和RMSE作为漂移检测指标, 兼顾了检测过程中的稳定性与灵敏度要求. 一方面, MAE能够平滑、稳定地反映数据整体误差水平, 提升检测过程的鲁棒性; 另一方面, RMSE对于局部误差剧增现象具备快速响应能力, 有助于及时捕捉潜在的漂移信号, 通过两种指标的互补使用, 能够有效克服单一指标在复杂环境下可能存在的局限性.

MAE计算的是平均绝对误差, 用于衡量预测值$\hat{B}(a_l) $与真实值$P(a_l) $间的绝对偏差, 反映模型整体预测精度的稳定程度. 其原始定义如下所示:

$ {\rm{MAE}} =\frac{1}{T}\sum\limits_{l = 1}^T {| {\hat B( {{a_l}} ) - P( {{a_l}} )} |} . $ (11)

考虑到具体数据的结构特性, 为提高误差度量对于实际分布变化的适应性, 所提出方法对MAE公式进行了改进, 引入式(4)所定义的差异度函数. 该函数不仅保证了误差值的非负性, 还能更准确地反映当前数据段的局部变化特征. 改进后的MAE表达式如下所示:

$ {\rm{MAE}} =\frac{1}{T}\sum\limits_{l = 1}^T {D( {\hat B( {{a_l}} ),P( {{a_l}} )} )} . $ (12)

同理, 针对RMSE, 所提出方法亦引入差异度函数进行替代. RMSE原始形式为

$ {\rm RMSE} = \sqrt {\frac{1}{T}\sum\limits_{l = 1}^T {{( {\hat B( {{a_l}} ) - P( {{a_l}} )} )^2}} } , $ (13)

利用差异度函数改进后形式表达为

$ {\rm RMSE} =\sqrt {\frac{1}{T}\sum\limits_{l = 1}^T {D( {\hat B( {{a_l}} ),P( {{a_l}} )} )^2} } . $ (14)

利用式(12)和(14), 可分别计算出$\tilde{w}_i^{\rm val}$在每一数据段中对应的MAE和RMSE检测值, 进而构建出如下完整的检测指标序列:

$\begin{split} &M = \{{\rm MAE}_1, {\rm MAE}_2, \ldots, {\rm MAE}_{V+1}\},\\ &R = \{{\rm RMSE}_1, {\rm RMSE}_2, \ldots, {\rm RMSE}_{V+1}\}.\end{split}$

上述两个指标序列将作为漂移检测的对象, 用于识别训练集数据在不同子段中可能存在的漂移现象.

为实现对上述指标序列的有效检测, 进一步引入累积和检测法(CUSUM)作为漂移检测机制. CUSUM作为一种经典的概念漂移检测方法, 可有效捕捉数据中存在的逐步偏移趋势, 从而对较为微小的变化和波动保持较高的敏感度. CUSUM基本定义如下所示:

$ C _ t =\max [0, {C} _{ {t} {-1}} +( x _ t - \mu _ 0 - k )]. $ (15)
$ 漂移检测= \left\{\begin{aligned} & 1,~ {C_t} \geqslant h; \\ & 0,~ {\rm{otherwise }}. \end{aligned} \right. $ (16)

其中: $x_t $为待检测序列$X $中的第$t $个值; $\mu_0 $表示检测序列在稳态条件下的期望值; $k $为用户设定的容忍度参数, 用于调节漂移检测的敏感性, 能够在一定程度上抑制由数据本身波动或噪声引发的误判; $h $为漂移判定阈值, 当$C_t $超过该阈值时, 即可认为发生了概念漂移.

为提升CUSUM在实际检测任务中的适应性和稳定性, 本节在保持原始CUSUM框架的基础上, 对其进行一定的改进, 改进后公式如下所示:

$ C_{t} = \max\Big[0, C_{t-1} +\frac{{{x_t} - \bar x}}{{{x_{\max}} - {x_{\min}}}}- k\Big]. $ (17)
$ 漂移检测= \left\{\begin{aligned} & 1,~ {C_t} \geqslant h; \\ & 0,~ {\rm{otherwise }}. \end{aligned} \right. $ (18)

其中: $\bar{x} $为序列$X $的均值, 同时作为所提出方法中所选取的期望值; 此外, 定义初始值$C_0 = 0 $. 基于此, 本节对CUSUM方法进行如上改进, 以便将多个检测序列统一归一至相同的量纲范围内, 从而更好地适配联合检测指标的应用需求. 利用式(17)和(18)分别对检测序列$M $$R $进行检测, 得到两个漂移判定索引集合为$I_M = \{t | {\rm CUSUM}(M_t) \geqslant h_M\}$$I_R = \{t | {\rm CUSUM}(R_t) \geqslant h_R\}$. 对两个索引集合进行合并得到$I = I_M \textstyle\bigcup I_R$, 对于任意$t \in I $, 定义其最终漂移值为

$ {\rm CS}_t = \left\{\begin{aligned} & {{\rm{CUSUM}}( {{M_t}} ), ~t \in {I_M}\backslash {I_R}}; \\ & {{\rm{CUSUM}}( {{R_t}} ), ~t \in {I_R}\backslash {I_M}}; \\ & \arg\max\limits_{v \in \{ {{\rm{CUSUM}}( {{M_t}} ),{\rm{CUSUM}}( {{R_t}} )} \}}| v |,\\ &~~~ t \in {I_R} \textstyle\bigcap {I_M}. \end{aligned} \right. $ (19)

通过上述合并策略, 不仅有效保留了CUSUM方法本身的检测能力, 还借助最大绝对值选择机制强化了对高强度漂移信号的响应, 从而在整体上提升了漂移检测的灵敏度和结果的稳定性.

2.4 漂移适应

根据第2.3节的相关内容, 可获得针对各数据段的漂移检测结果集合$I $, 在确认漂移发生后, 即进入概念漂移适应阶段. 现有研究中, 常见的概念漂移适应策略大致可分为3类: 模型重置(reset)[34-35]、参数更新(update)[36]和集成学习(ensemble)[37]. 其中: 集成方法因其结构灵活和性能稳定, 被广泛应用于多类漂移情境. 该方法通过维护多个基分类器, 不仅具备较强的鲁棒性, 能够适应突变型、渐近型等多种漂移类型, 还能有效规避单模型更新中常见的过拟合和灾难性遗忘问题. 此外, 集成结构中的多个子分类器可协同工作, 保持较低的误差波动和预测方差, 并支持局部模型的替换和重构, 具备良好的兼容性和扩展性. 鉴于集成方法在应对概念漂移中的诸多优势, 本文亦采用集成策略对第2.3节检测出的漂移数据段实施适应性处理. 为增强模型在动态环境下的响应能力, 方法采取双重集成机制, 在基于ER进行集结的基础上, 进一步结合各数据段的具体漂移强度, 对预测结果进行二次集成. 具体集成过程如下.

2.4.1 贡献度确定

按照式(1) $\sim $ (4), 针对第2.2节所划分的$V+1 $个数据段, 分别进行权重优化, 进而获得每一数据段对应的最优属性权重$\tilde{w}_i^j (1 \leqslant j \leqslant V+1) $; 随后, 利用各段优化得到的权重$\tilde{w}_i^j $对验证集数据进行独立预测, 并计算其在验证集上的预测精度${\rm Pr}_j$, 该精度可视为该组权重对当前决策偏好的拟合程度. 换言之, ${\rm Pr}_j$反映了第$j $段数据优化权重在当前验证环境下的适应表现. 基于此指标, 可进一步衡量各数据段在整体集成中的相对有效性, 并据此赋予不同数据段相应的贡献度$c_j $. 贡献度的具体计算公式如下所示:

$ {\rm Pr}_{j} = 1 - \frac{1}{{{N_j}}}\sum\limits_{l = 1}^{{N_j}} {D( {\hat B( {{a_l}} ),P( {{a_l}} )} )} . $ (20)
$ {c'_j} = \left\{ \begin{aligned} & {\rm Pr}_j,~j \notin I; \\ & ( 1 - {\rm CS}_j ) \cdot {\rm Pr}_j,~j \in I. \end{aligned} \right. $ (21)
$ {c_j} = \frac{{{c'_j}}}{{\displaystyle\sum\limits_{j = 1}^{V + 1} {{{c'}_j}} }} . $ (22)

其中: $I $为第2.3节得到的漂移段索引集合, 对于非漂移段$(j \notin I) $, 其贡献度直接由验证精度${\rm Pr}_j$决定; 若其为漂移段落$(j \in I) $, 则引入该段对应的漂移程度${\rm CS}_j $, 对其精度${\rm Pr}_j$进行削弱处理, 通过削弱操作反映该段数据在拟合决策习惯上的不足, 从而抑制其在全局融合中的影响力. 通过将漂移强度作为调节因子, 引导模型在融合阶段优先信任稳定、具备长期代表性的数据段, 从而提高整体预测的稳健性和一致性, 避免因局部短期波动引发模型决策偏移.

2.4.2 集成适应

根据第2.4.1节获得各数据段最优权重$\tilde w_i^j$和对应贡献度$c_j $后, 即可进入双重集成阶段:

1)第1重集成以ER方法为基础, 利用每段独立优化得到的最优属性权重$\tilde w_i^j$对当前决策方案$a_l $生成局部预测结果

$\begin{split} &\hat{B}_j(a_l)=\\ &\{(H_n, \hat{\beta}_{n,j}(a_l)), n = 1,2, \ldots, N; (\varOmega, \hat{\beta}_{n,j}(a_l))\},\end{split}$

确保局部预测性能最优.

2)在此基础上, 区别于传统集成策略中对模型结果进行简单平均或固定加权处理, 本文进一步构建第2重集成机制. 该机制将第$j $个数据段对应的贡献度$c_j $嵌入ER框架中, 用于衡量各子段落在整体融合过程中的贡献度和重要性, 从而实现基于贡献度动态调节的多段集成. 双重集成机制不仅保留了ER方法的可解释性优势, 同时, 增强了模型在非平稳环境下的整体适应性和预测稳定性. 最终可集结得到方案$a_l $最终的预测结果为

$\begin{split} &\hat{B}(a_l)=\\ &\{(H_n, \hat{\beta}_n(a_l)), n=1,2, \ldots, N ;(\varOmega, \hat{\beta}_{\varOmega}(a_l))\}.\end{split}$
2.5 考虑概念漂移的数据驱动证据推理决策方法流程

基于第2.1节 $\sim $ 第2.4节, 所提出考虑概念漂移的数据驱动证据推理决策方法流程如图2所示. 具体步骤如下.

图 2 考虑概念漂移的数据驱动证据推理决策方法流程

step 1: 首先, 按照时间顺序将完整的历史数据集划分为训练集、验证集和测试集, 划分比例设定为6 : 2 : 2. 然后, 利用DE算法和式(1) $\sim $ (4)对验证集进行属性权重优化, 获得在当前验证环境下表现最优的属性权重$\tilde w^{\rm val}_i$. 在此基础上, 进一步利用该组权重对训练集数据进行预测评估, 并以预测结果为依据, 引入基于EDDM思想的漂移预处理机制. 具体而言, 借助式(5) $\sim $ (10)识别所有异常间隔$D $, 并基于异常间隔对训练集样本数据进行划分, 最终得到连续的$V+1$个子段. 在此过程中, 基于EDDM的预处理机制通过识别误差间隔中的异常波动区段, 进而标定可能存在概念漂移的分界点, 为后续各子数据段的漂移检测和模型适应提供更加精确且结构化的划分依据.

step 2: 为在数据段划分的基础上进一步完成概念漂移检测, 需要构建与数据特性相匹配的检测指标序列, 以获取较为准确的漂移检测结果. 首先, 选取适用于当前数据特性的两个性能指标 —— MAE和RMSE作为联合检测指标; 然后, 利用step 1中得到的$\tilde w^{\rm val}_i$对每个数据子段进行预测评估, 利用式(12)和(14)计算得到对应的指标值, 进而构建出如下两类指标序列:

$\begin{split} &M = \{{\rm MAE}_1, {\rm MAE}_2, \ldots, {\rm MAE}_{V+1}\},\\ &R = \{{\rm RMSE}_1, {\rm RMSE}_2, \ldots, {\rm RMSE}_{V+1}\} ;\end{split}$

接着, 采用CUSUM漂移检测方法对上述两类指标序列进行漂移检测, 分别利用式(17)和(18)得到漂移判定索引集合$I_M = \{t |{\rm CUSUM}(M_t) \geqslant h_M\}$$I_R = \{t |{\rm CUSUM}(R_t) \geqslant h_R\}$; 最后, 由式(19), 对$I_M $$I_R $进行合并处理, 构成最终的漂移判定索引集合$I $. 在此过程中, 引入最大绝对值选择策略来融合重复索引项, 以确保漂移信号强度最显著的数据段被优先保留, 从而增强检测的敏感性和稳定性.

step 3: 在确认step 2中漂移索引集合$I $所指示的数据段存在概念漂移后, 方法进入适应阶段, 采用双重集成机制对已检测到的漂移进行适应和处理. 首先, 利用DE算法结合式(1) $\sim $ (4)对每个数据段分别进行属性权重优化, 得到对应的最优权重$\tilde w_i^j$ $(1\leqslant j \leqslant V+1) $. 然后, 基于各段优化权重在验证集上的精度表现${\rm Pr}_j$, 并结合漂移强度${\rm CS}_j $, 通过式(20) $\sim $ (22)共同决定属于该数据段的贡献度$c_j $. 在此基础上, 方法利用最优属性权重$\tilde w_i^j$进行首次ER集成, 得到每个数据段关于每个决策方案$a_l $的预测评估${\hat B_j}( {{a_l}} )$; 进而, 为提升全局预测的一致性和稳健性, 引入第2重集成机制, 利用各段贡献度$c_j $对每个数据段的预测结果${\hat B_j}( {{a_l}} )$进行关于贡献度的集成, 最终获得关于决策方案$a_l $的预测评估$\hat B( {{a_l}} )$.

3 考虑概念漂移的数据驱动证据推理决策方法的应用

本节考虑将概念漂移的数据驱动证据推理决策方法应用于乳腺结节的辅助诊断问题中. 以安徽省合肥市某三甲医院的乳腺超声诊断数据为例, 通过实验验证该方法的有效性和实用性.

3.1 问题描述

其中每个等级对应的恶性风险区间依次为$\{[0,0.02], (0.02,0.10], (0.10,0.50], (0.50,0.95], (0.95,1]\} $. 在实际临床实践中, 放射科医生针对单个乳腺结节所给出的BIRADS分级越高, 其判定的恶性风险程度越大. 考虑到个体等级效用反映了不同医生面对恶性结节时对于各风险等级的偏好程度, 本文进一步采用不同医生的不同个体等级效用进行后续计算.

乳腺癌是全球女性中最常见的恶性肿瘤之一, 其发病率持续上升, 已成为威胁女性生命健康的重要公共卫生问题[38-39]. 根据中国国家癌症中心发布的最新统计数据, 中国每年新发乳腺癌患者约为42万例, 在女性新发癌症中占比高达33.04%[40]. 值得警惕的是, 乳腺癌的发病呈现出年轻化趋势, 年轻女性群体中的发病率持续攀升, 疾病负担日益加重. 这一趋势无疑对女性群体的整体健康水平构成了严峻挑战, 也进一步凸显了乳腺癌早期诊断以及及时治疗的重要性和紧迫性. 在乳腺癌早期筛查和诊断过程中, 乳腺超声凭借其多方面优势逐渐成为临床首选检测手段. 相比于其他影像学检查, 如钼靶X线摄影或磁共振成像(MRI), 乳腺超声具有费用相对低廉, 检查过程无创且患者体验良好, 无电离辐射风险等突出特点[41]. 此外, 相较于传统影像学检查, 乳腺超声展现出更高的敏感性和实际应用价值, 因此, 在临床早筛和常规随访中得到了广泛应用, 成为提升乳腺癌早期检出率、改善患者预后水平的重要助力.

在实际临床应用中, 超声图像能够清晰地反映乳腺肿瘤的边界、形态、血流、内部回声等多维度的信息, 超声科医生主要依据自身经验结合超声图像特征对乳腺肿瘤进行良恶识别和判断. 随着计算机技术的不断进步, 从历史数据中学习并模拟医生诊断偏好的方法成为可能; 而长期积累的丰富诊断数据, 则使得这一可能性真正转化为现实. 然而, 需要注意的是, 医生的主观判断随着从业经验的积累会不断变化和优化, 意味着其决策模式和偏好也存在随时间动态演化的特性, 这种随着时间推移导致决策模式发生变化的现象, 本质上即为一种典型的概念漂移问题. 受此影响, 传统基于静态数据学习医生诊断偏好的辅助诊断方法已难以充分适应当前不断变化的实际决策环境. 在此背景下, 亟需提出一种考虑概念漂移的数据驱动证据推理决策方法, 以辅助医生更准确地诊断乳腺结节.

本节基于中国安徽省合肥市某三甲医院超声科的历史检查报告, 应用所提出考虑概念漂移的数据驱动证据推理决策方法来辅助放射科医生进行乳腺结节诊断. 研究收集了5名放射科医师自2015年1月 $\sim $ 2024年6月期间共2944份乳腺超声检查报告, 在这些检查报告中, 对乳腺结节的诊断主要依靠边缘、轮廓、回声、钙化以及血流情况这5个关键特征. 此外, 细针穿刺活检产生的乳腺结节病理结果被记录于历史检查报告中, 鉴于病理结果的高度客观性和权威性, 其可被视为金标准, 用于判断恶性(阳性)或良性(阴性)结节的最终标准. 参考乳腺影像报告和数据系统(BIRADS)所定义的标准, 乳腺结节根据其癌症风险评估可划分为5个等级, 分别对应

$\begin{split} &{\rm BIRADS3}, {\rm BIRADS4A}, {\rm BIRADS4B}, {\rm BIRADS4C}, \\ &{\rm BIRADS5}=\{H_1, H_2, H_3, H_4, H_5\},\end{split}$

其中每个等级对应的恶性风险区间依次为$\{[0,0.02], (0.02,0.10], (0.10,0.50], (0.50,0.95], (0.95,1]\} $. 在实际临床实践中, 放射科医生针对单个乳腺结节所给出的BIRADS分级越高, 其判定的恶性风险程度越大. 考虑到个体等级效用反映了不同医生面对恶性结节时对于各风险等级的偏好程度, 本文进一步采用不同医生的不同个体等级效用进行后续计算.

3.2 结果分析

在实验中, 将5位放射科医生$R_j(j=1,2,\ldots, 5)$的历史诊断报告视作实验数据, 并将这些数据按照时间顺序以6 : 2 : 2划分为训练集、验证集以及测试集. 其中: 测试集包含时间上最接近当前的诊断记录, 用以代表医生实际决策习惯下的临床判断; 验证集则由次新数据构成, 反映与当前决策模式最为接近的诊断特征; 而训练集则作为历史数据, 主要用于检测并识别其中可能存在的与当前诊断习惯或数据特性不一致的数据段. 5位医生对应的数据划分情况如表1所示.

表 1 5位放射科医生具体数据分布情况

在数据划分完毕后, 利用step 1生成验证集最优权重$\tilde w^{\rm val}_i$, 5位放射科医生的验证集最优权重如表2所示. 利用$\tilde w^{\rm val}_i$对训练数据进行预测并进行数据段划分, 得到最大历史间隔均值$p_{\max}$和标准差$s_{\max}$分别如表3所示. 结合EDDM检测思路, 可以观察到不同医生对应的模型在整体性能最优性和稳定性方面存在明显差异. 具体而言, $R_4 $具有最大的$p_{\max}$, 即最大历史间隔均值, 表明其模型性能相对是最为突出的, 同时, 其标准差$s_{\max}$处于中等水平, 体现出较好的性能峰值和稳定性平衡; $R_2 $具有最小的$s_{\max}$, 即最小历史间隔标准差, 表明其模型稳定性相对较好, 但是, 其性能峰值偏低, 整体性能水平有限; $R_1 $$R_3 $在整体性能和稳定性上均表现一般; $R_5 $尽管间隔均值较高, 但是标准差偏大, 提示其模型历史波动性更为明显. 基于此, 结合每位医生的预测情况和式(10)中的阈值设定方法来确定异常间隔的判别条件, 具体地, 本文取阈值参数$\alpha = 0.8 $, 最终完成对各医生训练数据的段划分.

表 2 5位放射科医生验证集最优权重
表 3 5位放射科医生最大历史间隔均值和标准差

根据划分好的各数据子段, 进一步构建检测指标序列. 按照step 2中的设定, 利用验证集最优权重$\tilde w^{\rm val}_i$以及式(12)和(14), 构建每位放射科医生在数据子段上的两类指标序列, 分别为

$\begin{split} &M =\{{\rm MAE}_1,{\rm MAE}_2, \ldots, {\rm MAE}_{V+1}\},\\ &R = \{{\rm RMSE}_1,{\rm RMSE}_2,\ldots,{\rm RMSE}_{V+1}\}.\end{split}$

以第1个放射科医生的5个数据子段为例, 得到的检测指标如表4所示.

表 4 第1位放射科医生的检测指标序列

根据已建立的检测指标序列, 利用式(17)和(18)进行漂移检测, 设定漂移阈值为0.2, 得到各放射科医生对应的漂移检测索引集合, 分别为$I_1 = \{1\} $, $I_2 = \{1,2\} $, $I_3 = \{1\} $, $I_4 = \{3,5\} $, $I_5 = \{1\} $. 通过对所有检测出的漂移数据段进行观察分析可以发现, 大部分漂移段集中出现在距离验证集数据较远的历史阶段. 这一现象表明, 随着时间的推移, 放射科医生的诊断习惯和决策偏好逐渐发生了变化, 历史数据与当前决策模式间出现了明显的偏离. 在确认漂移现象存在后, 依据step 3的框架, 对各数据段分别进行漂移适应. 具体而言, 针对每一子数据段, 优化得到其最优属性权重$\tilde w_i^j$, 利用$\tilde w_i^j$在验证集上的性能反映进行修正调整. 以精度作为性能指标, 依据精度表现进一步为不同数据段确定贡献度, 最终形成针对不同放射科医生各自数据段的贡献度分布情况, 具体如图3所示. 最后, 根据确定好的各数据段贡献度$c_j $和各段最优属性权重$\tilde w_i^j$对方法在测试集上的表现进行验证, 并得到每位医生的测试集精度. 表5汇总了考虑概念漂移后的数据驱动证据推理方法在各测试集上的精度表现.

图 3 5位放射科医生的各数据段贡献度分布
表 5 5位放射科医生自身精度与本文方法的精度

表5可见, 考虑概念漂移的数据驱动证据推理决策方法效果良好, 验证了该方法在提升模型精度方面的优势. 具体而言, 与放射科医生自身的诊断结果相比, 该方法在测试集上的精度分别提升了18.7%、16.9%、18.27%、11.47%、7.92%, 表明所提出方法不仅能够有效识别历史数据中潜在的概念漂移现象, 还能通过贡献度调整机制, 合理削减了受漂移影响较大的数据段贡献, 显著降低了概念漂移对于整体预测性能的负面作用. 因此, 模型在测试集上展现出更优异且稳定的预测能力, 这为放射科医生在乳腺结节的诊断过程中提供了更准确可靠且兼顾可解释性的辅助支持.

3.3 对比实验

为进一步验证所提出考虑概念漂移的数据驱动证据推理决策方法的有效性和合理性, 本节基于第3.2节中划分的训练集、验证集和测试集数据, 将所提出方法与多种对比方法进行系统比较. 首先, 将所提出方法与不考虑概念漂移的数据驱动证据推理决策方法(Fu-MCDM)进行对比, 验证其在动态环境下的适应优势; 然后, 将其与已知的概念漂移适应方法进行比较, 这些方法包括简单加权集成适应策略、模型再训练适应策略、增量更新适应策略以及在数据层面的. 需要说明的是, 鉴于本研究首次在数据驱动的证据推理决策框架下系统引入了概念漂移适应机制, 对比实验中所采用的其他适应方法均是在保持所提出方法整体框架不变的前提下, 仅在漂移适应环节替换为其他经典适应方式, 以保证对比研究的客观性和一致性. 通过这种方式, 能够更清晰地评估不同漂移适应策略在相同数据驱动框架下的性能差异. 各方法在测试集上的性能对比如表6所示. 为了更直观地观察实验效果, 使用图4图5进一步呈现实验结果.

表 6 方法精度对比
图 4 本文方法与经典方法精度对比
图 5 本文方法与经典方法综合对比

实验结果表明, 所提出方法在精度上相较于其他方法实现了显著提升. 具体来看, 与Fu-MCDM相比, 精度分别提升了14.07%、4.54%、4.03%、13.23%和12.60%; 相较于简单加权集成法, 提升幅度为12.08%、2.54%、4.75%、3.90%和0.98%; 与模型再训练法对比, 分别提升了18.57%、8.42%、4.42%、11.96%和11.25%; 而在与增量学习法的对比中, 精度提升则达到了16.38%、3.00%、6.20%、3.09%和2.05%. 在乳腺结节辅助诊断场景中, Fu-MCDM完全未考虑概念漂移, 仅基于历史数据进行模型训练, 难以反映数据随时间演进的变化特征, 导致模型在实际应用中受限于“历史惯性”, 整体预测性能相对较低. 简单加权集成法在本文框架下, 通过对各数据段的最优权重按照贡献度进行加权集成, 整体精度表现较好, 表明集成策略在一定程度上能够缓解概念漂移的负面影响. 然而, 由于加权方式较为粗略, 难以深层次捕捉数据的动态变化, 其效果存在一定局限性. 模型再训练法考虑了漂移因素, 采用最新数据对模型进行再训练, 理论上可提高模型对于当前数据分布的适应能力, 但是, 在$R_1 $$R_2 $上的表现较弱, 反映出单纯依赖最新数据虽然有助于适应性增强, 但是, 在数据量有限时易导致模型泛化能力不足. 增量学习法在历史数据的基础上融入了最新数据, 整体精度略高于简单加权集成法, 表明其在一定程度上兼顾了历史与新数据的平衡, 但是提升幅度有限, 表明该方法仍然难以完全摆脱历史数据“惯性”带来的影响. 总体而言, 所提出方法在5位放射科医生的数据中均取得了最高精度, 平均水平也显著优于其他对比方法. 这充分验证了所提出方法不仅能够充分挖掘历史数据的有效性, 还具备较强的动态适应能力, 能够在新旧数据间实现更优的平衡, 从而在应对概念漂移方面表现出突出的优势.

综上所述, 所提出考虑概念漂移的数据驱动证据推理决策方法能够有效检测数据中潜在的漂移现象, 并据此实施有针对性的适应策略, 在提升模型准确性的同时, 兼顾决策过程的可解释性, 从而生成更为可靠的辅助诊断建议. 实验验证了该方法在医疗诊断任务中的适用性和有效性, 充分展示了其在提高决策精度方面的显著优势.

4 结 论

本文针对动态决策场景中存在的概念漂移问题, 提出了一种面向概念漂移检测与适应的数据驱动证据推理决策方法. 该方法基于EDDM思想, 结合引入CUSUM漂移检测机制, 在对数据序列进行合理划分的基础上, 实现了对历史数据中潜在漂移片段的有效识别; 在随后的漂移适应阶段, 设计了双重集成机制, 在保留证据推理方法可解释性优势的同时, 基于数据段贡献度调节削弱受漂移影响的片段, 有效缓解了概念漂移对于模型性能的负面影响, 从而在提升整体稳定性的同时, 兼顾了决策过程的可解释性. 所提出方法被用于解决安徽省合肥市某三甲医院乳腺结节辅助诊断问题中, 实验结果表明其在预测精度和稳定性方面均优于传统静态学习方法, 具备良好的实践价值.

此外, 尽管本文聚焦于乳腺结节辅助诊断场景, 但是, 所提出方法体系在其他动态决策任务中同样具有良好的适用性, 如甲状腺结节等疾病的辅助诊断, 以及其他涉及概念漂移现象的临床决策和智能系统领域. 尽管如此, 所提出方法仍然存在一定的局限性. 目前, 针对不同类型的漂移鲜有设计差异化适应策略, 且漂移检测方法也存在进一步拓展和优化的空间. 未来的研究工作将致力于根据漂移类型特征(如突变型、渐近型、递归型等)设计定制化的漂移适应机制, 并探索多种漂移检测方法的融合策略, 以进一步提升模型的泛化能力和跨场景适用性.

参考文献
[1]
Dutta B, Dao S D, Martínez L, et al. An evolutionary strategic weight manipulation approach for multi-attribute decision making: TOPSIS method[J]. International Journal of Approximate Reasoning, 2021, 129: 64-83. DOI:10.1016/j.ijar.2020.11.004
[2]
基于前景理论的犹豫模糊TOPSIS多属性决策方法[J]. 控制与决策, 2017, 32(5): 864-870.
(Wang Y M, Que C P, Lan Y X. Hesitant fuzzy TOPSIS multi-attribute decision method based on prospect theory[J]. Control and Decision, 2017, 32(5): 864-870.)
[3]
Hafezalkotob A, Hafezalkotob A, Liao H C, et al. An overview of MULTIMOORA for multi-criteria decision-making: Theory, developments, applications, and challenges[J]. Information Fusion, 2019, 51: 145-177. DOI:10.1016/j.inffus.2018.12.002
[4]
Yu G F, Fei W, Li D F. A compromise-typed variable weight decision method for hybrid multiattribute decision making[J]. IEEE Transactions on Fuzzy Systems, 2019, 27(5): 861-872. DOI:10.1109/TFUZZ.2018.2880705
[5]
基于聚类集成和激活因子的扩展置信规则库推理模型[J]. 控制与决策, 2023, 38(3): 815-824.
(Yang L H, Ren T Y, Hu H B, et al. Extended belief rule base inference model based on clustering ensemble and activation factor[J]. Control and Decision, 2023, 38(3): 815-824.)
[6]
Yang J B, Singh M G. An evidential reasoning approach for multiple-attribute decision making with uncertainty[J]. IEEE Transactions on Systems, Man, and Cybernetics, 1994, 24(1): 1-18. DOI:10.1109/21.259681
[7]
Yang J B, Xu D L. On the evidential reasoning algorithm for multiple attribute decision analysis under uncertainty[J]. IEEE Transactions on Systems, Man, and Cybernetics — Part A: Systems and Humans, 2002, 32(3): 289-304. DOI:10.1109/TSMCA.2002.802746
[8]
Dempster A P. A generalization of Bayesian inference[J]. Journal of the Royal Statistical Society: Series B, 1968, 30(2): 205-232. DOI:10.1111/j.2517-6161.1968.tb00722.x
[9]
Shafer G. A mathematical theory of evidence[M]. Princeton: Princeton University Press, 1976.
[10]
Yang J B, Xu D L. Maximum likelihood evidential reasoning[J]. Artificial Intelligence, 2025, 340: 104289. DOI:10.1016/j.artint.2025.104289
[11]
Xu D L, Yang J B, Wang Y M. Make evidence theory probabilistic again[J]. Journal of Control and Decision, 2025: 1-16.
[12]
Fu C, Chang W J, Liu W Y, et al. Data-driven group decision making for diagnosis of thyroid nodule[J]. Science China Information Sciences, 2019, 62(11): 212205. DOI:10.1007/s11432-019-9866-3
[13]
Fu C, Chang W J, Xue M, et al. A data-driven open decision framework based on adaptive evidential reasoning rule[J]. Computers & Industrial Engineering, 2025, 206: 111247.
[14]
Ning P Y, Zhou Z J, Cao Y, et al. A concurrent fault diagnosis model via the evidential reasoning rule[J]. IEEE Transactions on Instrumentation and Measurement, 2021, 71: 3500916.
[15]
Li Y Z, Wu Q H, Jiang L, et al. Optimal power system dispatch with wind power integrated using nonlinear interval optimization and evidential reasoning approach[J]. IEEE Transactions on Power Systems, 2016, 31(3): 2246-2254. DOI:10.1109/TPWRS.2015.2449667
[16]
区间信息类型下的突发事件动态预警方法[J]. 控制与决策, 2017, 32(7): 1306-1312.
(Zhang Z X, Wang L, Wang Y M. Dynamic early-warning method of emergency event with interval information[J]. Control and Decision, 2017, 32(7): 1306-1312.)
[17]
Fu C, Liu W Y, Chang W J. Data-driven multiple criteria decision making for diagnosis of thyroid cancer[J]. Annals of Operations Research, 2020, 293(2): 833-862. DOI:10.1007/s10479-018-3093-7
[18]
Chang L L, Fu C, Wu Z J, et al. Data-driven analysis of radiologists’ behavior for diagnosing thyroid nodules[J]. IEEE Journal of Biomedical and Health Informatics, 2020, 24(11): 3111-3123. DOI:10.1109/JBHI.2020.2969322
[19]
Yang Y, Lu R X, Xue M, et al. Data-driven evidential reasoning method for evaluating e-government performance[J]. International Journal of Information Technology & Decision Making, 2021, 20(1): 261-285.
[20]
Lu J, Yan Z, Han J L, et al. Data-driven decision-making (D3M): Framework, methodology, and directions[J]. IEEE Transactions on Emerging Topics in Computational Intelligence, 2019, 3(4): 286-296. DOI:10.1109/TETCI.2019.2915813
[21]
Wang K, Lu J, Liu A J, et al. TS-DM: A time segmentation-based data stream learning method for concept drift adaptation[J]. IEEE Transactions on Cybernetics, 2024, 54(10): 6000-6011. DOI:10.1109/TCYB.2024.3429459
[22]
基于工业视角的概念漂移检测与适应方法综述[J]. 控制与决策, 2025, 40(6): 1774-1792.
(Zhou P, Zhang Y. A review of concept drift detection and adaptation methods from an industrial perspective[J]. Control and Decision, 2025, 40(6): 1774-1792.)
[23]
Xu D L. An introduction and survey of the evidential reasoning approach for multiple criteria decision analysis[J]. Annals of Operations Research, 2012, 195(1): 163-187. DOI:10.1007/s10479-011-0945-9
[24]
Yang J B, Xu D L. Evidential reasoning rule for evidence combination[J]. Artificial Intelligence, 2013, 205: 1-29. DOI:10.1016/j.artint.2013.09.003
[25]
Corrente S, Greco S, Słowiński R. Handling imprecise evaluations in multiple criteria decision aiding and robust ordinal regression by n-point intervals[J]. Fuzzy Optimization and Decision Making, 2017, 16(2): 127-157. DOI:10.1007/s10700-016-9244-x
[26]
Jiang Z Z, Zhang R Y, Fan Z P, et al. A fuzzy matching model with Hurwicz criteria for one-shot multi-attribute exchanges in E-brokerage[J]. Fuzzy Optimization and Decision Making, 2015, 14(1): 77-96. DOI:10.1007/s10700-014-9189-x
[27]
Lu J, Liu A J, Dong F, et al. Learning under concept drift: A review[J]. IEEE Transactions on Knowledge and Data Engineering, 2019, 31(12): 2346-2363.
[28]
弹性梯度集成的概念漂移适应[J]. 计算机研究与发展, 2025, 62(5): 1235-1247.
(Guo H S, Zhang Y T, Wang W J. Elastic gradient ensemble for concept drift adaptation[J]. Journal of Computer Research and Development, 2025, 62(5): 1235-1247.)
[29]
Das S, Suganthan P N. Differential evolution: A survey of the state-of-the-art[J]. IEEE Transactions on Evolutionary Computation, 2011, 15(1): 4-31. DOI:10.1109/TEVC.2010.2059031
[30]
Baena-Garcıa M, Del C J, Fidalgo R, et al. Early drift detection method[C]. Proceedings of the 4th International Workshop on Knowledge Discovery From Data Streams. Berlin, 2006: 77-86.
[31]
Wang H, Abraham Z. Concept drift detection for streaming data[C]. International Joint Conference on Neural Networks. Killarney, 2015: 1-9.
[32]
Gama J, Medas P, Castillo G, et al. Learning with drift detection[C]. Proceedings of the 17th Brazilian Symposium on Artificial Intelligence. São Luís, 2004: 286-295.
[33]
Willmott C J, Matsuura K. Advantages of the mean absolute error over the root mean square error in assessing average model performance[J]. Climate Research, 2005, 30: 79-82. DOI:10.3354/cr030079
[34]
Bach S H, Maloof M A. Paired learners for concept drift[C]. Proceedings of the 8th IEEE International Conference on Data Mining. Pisa, 2008: 23-32.
[35]
Alippi C, Roveri M. Just-in-time adaptive classifiers — Part I: Detecting nonstationary changes[J]. IEEE Transactions on Neural Networks, 2008, 19(7): 1145-1153. DOI:10.1109/TNN.2008.2000082
[36]
Pratama M, Lu J, Zhang G Q. Evolving type-2 fuzzy classifier[J]. IEEE Transactions on Fuzzy Systems, 2016, 24(3): 574-589. DOI:10.1109/TFUZZ.2015.2463732
[37]
Sun Y, Tang K, Zhu Z X, et al. Concept drift adaptation by exploiting historical knowledge[J]. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29(10): 4822-4832. DOI:10.1109/TNNLS.2017.2775225
[38]
Shahid A H, Singh M P. Computational intelligence techniques for medical diagnosis and prognosis: Problems and current developments[J]. Biocybernetics and Biomedical Engineering, 2019, 39(3): 638-672. DOI:10.1016/j.bbe.2019.05.010
[39]
Fu C, Wu Z J, Chang W J, et al. Cross-domain decision making based on criterion weights and risk attitudes for the diagnosis of breast lesions[J]. Artificial Intelligence Review, 2023, 56(9): 9575-9603. DOI:10.1007/s10462-023-10394-7
[40]
Han B F, Zheng R S, Zeng H M, et al. Cancer incidence and mortality in China, 2022[J]. Journal of the National Cancer Center, 2024, 4(1): 47-53. DOI:10.1016/j.jncc.2024.01.006
[41]
Ha E J, Na D G, Baek J H, et al. US fine-needle aspiration biopsy for thyroid malignancy: Diagnostic performance of seven society guidelines applied to 2000 thyroid nodules[J]. Radiology, 2018, 287(3): 893-900. DOI:10.1148/radiol.2018171074