RL-Enhanced Disturbance-Aware MPC for Robust UAV Trajectory Tracking

RL-Enhanced Disturbance-Aware MPC for Robust UAV Trajectory Tracking

PDF

[已被 IEEE SMC 2025 录用] — 即将发表

本研究提出了 ROAM,一种新颖的 RL 增强、扰动感知的 MPC 框架,用于不确定和动态环境中的精确 UAV 轨迹跟踪。该方法结合了 MPC 的预测优势、reinforcement learning (RL) 的快速响应能力以及自适应 sliding mode observer (SMO) 的鲁棒性。

问题与动机

使用 MPC 的传统 UAV 控制器在模型失配风扰动计算延迟下表现不佳,导致残余跟踪误差和收敛缓慢。本工作通过两项创新解决这些挑战:

  • 离线训练的 RL 热启动策略以加速 MPC 收敛
  • Adaptive Super-Twisting Sliding Mode Observer (AST-SMO) 以估计和抑制实时扰动

技术贡献

1. 基于 RL 的热启动

  • 通过在专家 MPC 轨迹上进行模仿学习,训练了一个方向条件策略
  • 在实时控制中,它为 MPC 求解器提供与轨迹一致的初始猜测,将早期跟踪误差降低了 16.9%,计算时间减少了 38.7%

2. 用于扰动估计的 AST-SMO

  • SMO 使用平滑双曲函数实时估计外部扰动,以避免抖振。
  • 自适应增益调节机制动态调整灵敏度以实现更好的收敛。

3. 扰动感知 MPC

  • MPC 被重新构建以纳入来自 AST-SMO 的实时估计: \[ x_{k+1} = Ax_k + Bu_k + E(\hat{d}_k) \]
  • 目标:最小化跟踪误差和控制能耗,同时维持系统约束。

仿真结果

  • 在正弦和噪声扰动下的 12 自由度四旋翼模型上进行了评估。
  • ROAM 实现了:
    • 早期跟踪精度提升 16.9%
    • 计算时间减少 38.7%
    • 在强外部扰动下相比经典 MPC 具有更优的轨迹跟随性能

结论

ROAM 表明,RL、观测器与 MPC 的深度集成可产生具有更快收敛速度、更好稳定性和更高韧性的控制系统。其轻量化和模块化设计使其非常适合在嵌入式 UAV 平台上进行实时部署