(中国科学技术大学 自动化系, 安徽 合肥 230026)
研究一类连续时间 Mar ko v 控制过程( CTM CP) 在紧致行动集上关于平均代价性能准则的优 化算法。 根据CTM CP的性能势公式和平均代价最优性方程,导出了求解最优或次最优平稳控制策略的 策略迭代算法和数值迭代算法, 在无需假设迭代算子是 sp-压缩的条件下,给出了这两种算法的收敛性 证明。最后通过分析一个受控排队网络的例子说明了这种方法的优越性。
唐 昊, 奚宏生, 殷保群. Markov 控制过程在紧致行动集上的迭代优化算法[J].控制与决策,2003,18(3):267-271