摘要:针对电力市场中发电商非合作博弈具有动态性强、信息不完全等特点, 提出一种基于软演员–评论家算法 (Soft Actor-Critic, SAC) 的独立智能体报价学习方法.首先,在截距参数化供给函数的基础上,构建以发电商长期收益最大化为目标,并考虑直流潮流约束和节点电价形成机制的电力市场出清模型,将报价函数截距作为发电商的连续决策变量;然后,基于SAC算法构建发电商独立学习框架,通过最大熵目标增强策略探索性和收敛鲁棒性,并结合市场出清结果设计基于收益反馈的状态、动作与奖励映射机制,实现各发电商在无显式通信条件下的自适应策略更新;最后,基于IEEE 3节点和30节点系统开展数值仿真.仿真结果表明,所提出的基于SAC的独立智能体方法能够有效逼近纳什均衡报价策略,具有良好的收敛特性, 并能揭示在高折扣因子条件下电力市场中可能出现的默契合谋行为.