RL-Enhanced Disturbance-Aware MPC for Robust UAV Trajectory Tracking

Wed, 07 May 2025 00:00:00 +0000

[已被 IEEE SMC 2025 录用] — 即将发表

本研究提出了 ROAM，一种新颖的 RL 增强、扰动感知的 MPC 框架，用于不确定和动态环境中的精确 UAV 轨迹跟踪。该方法结合了 MPC 的预测优势、reinforcement learning (RL) 的快速响应能力以及自适应 sliding mode observer (SMO) 的鲁棒性。

问题与动机

使用 MPC 的传统 UAV 控制器在模型失配、风扰动和计算延迟下表现不佳，导致残余跟踪误差和收敛缓慢。本工作通过两项创新解决这些挑战：

离线训练的 RL 热启动策略以加速 MPC 收敛
Adaptive Super-Twisting Sliding Mode Observer (AST-SMO) 以估计和抑制实时扰动

技术贡献

1. 基于 RL 的热启动

通过在专家 MPC 轨迹上进行模仿学习，训练了一个方向条件策略。
在实时控制中，它为 MPC 求解器提供与轨迹一致的初始猜测，将早期跟踪误差降低了 16.9%，计算时间减少了 38.7%。

2. 用于扰动估计的 AST-SMO

SMO 使用平滑双曲函数实时估计外部扰动，以避免抖振。
自适应增益调节机制动态调整灵敏度以实现更好的收敛。

3. 扰动感知 MPC

MPC 被重新构建以纳入来自 AST-SMO 的实时估计： \[ x_{k+1} = Ax_k + Bu_k + E(\hat{d}_k) \]
目标：最小化跟踪误差和控制能耗，同时维持系统约束。

仿真结果

在正弦和噪声扰动下的 12 自由度四旋翼模型上进行了评估。
ROAM 实现了：
- 早期跟踪精度提升 16.9%
- 计算时间减少 38.7%
- 在强外部扰动下相比经典 MPC 具有更优的轨迹跟随性能

结论

ROAM 表明，RL、观测器与 MPC 的深度集成可产生具有更快收敛速度、更好稳定性和更高韧性的控制系统。其轻量化和模块化设计使其非常适合在嵌入式 UAV 平台上进行实时部署。

基于 Reinforcement Learning 的接触网络随机疫苗分配策略

Mon, 17 Mar 2025 00:00:00 +0000

将确定性最优控制与 Reinforcement Learning 相结合，开发了个体级接触网络上的随机疫苗分配策略，实现了鲁棒的疫情响应建模。

项目亮点

在接触图上使用高维连续时间马尔可夫过程 (CTMP) 对疫情传播进行建模。
设计了基于 Policy Gradient 的 RL 疫苗接种策略，并以 Mean-Field ODE 解作为热启动。
在合成和真实世界网络拓扑上评估了策略在死亡率和住院率等指标上的表现。

工具

Python, PyTorch, NetworkX, OpenAI Gym

Reinforcement Learning | 占俊飞的个人主页