RL-Enhanced Disturbance-Aware MPC for Robust UAV Trajectory Tracking
RL-Enhanced Disturbance-Aware MPC for Robust UAV Trajectory Tracking
[已被 IEEE SMC 2025 录用] — 即将发表
本研究提出了 ROAM,一种新颖的 RL 增强、扰动感知的 MPC 框架,用于不确定和动态环境中的精确 UAV 轨迹跟踪。该方法结合了 MPC 的预测优势、reinforcement learning (RL) 的快速响应能力以及自适应 sliding mode observer (SMO) 的鲁棒性。
问题与动机
使用 MPC 的传统 UAV 控制器在模型失配、风扰动和计算延迟下表现不佳,导致残余跟踪误差和收敛缓慢。本工作通过两项创新解决这些挑战:
- 离线训练的 RL 热启动策略以加速 MPC 收敛
- Adaptive Super-Twisting Sliding Mode Observer (AST-SMO) 以估计和抑制实时扰动
技术贡献
1. 基于 RL 的热启动
- 通过在专家 MPC 轨迹上进行模仿学习,训练了一个方向条件策略。
- 在实时控制中,它为 MPC 求解器提供与轨迹一致的初始猜测,将早期跟踪误差降低了 16.9%,计算时间减少了 38.7%。
2. 用于扰动估计的 AST-SMO
- SMO 使用平滑双曲函数实时估计外部扰动,以避免抖振。
- 自适应增益调节机制动态调整灵敏度以实现更好的收敛。
3. 扰动感知 MPC
- MPC 被重新构建以纳入来自 AST-SMO 的实时估计: \[ x_{k+1} = Ax_k + Bu_k + E(\hat{d}_k) \]
- 目标:最小化跟踪误差和控制能耗,同时维持系统约束。
仿真结果
- 在正弦和噪声扰动下的 12 自由度四旋翼模型上进行了评估。
- ROAM 实现了:
- 早期跟踪精度提升 16.9%
- 计算时间减少 38.7%
- 在强外部扰动下相比经典 MPC 具有更优的轨迹跟随性能
结论
ROAM 表明,RL、观测器与 MPC 的深度集成可产生具有更快收敛速度、更好稳定性和更高韧性的控制系统。其轻量化和模块化设计使其非常适合在嵌入式 UAV 平台上进行实时部署。