RL-Enhanced Disturbance-Aware MPC for Robust UAV Trajectory Tracking

[已被 IEEE SMC 2025 录用] — 即将发表

本研究提出了 ROAM，一种新颖的 RL 增强、扰动感知的 MPC 框架，用于不确定和动态环境中的精确 UAV 轨迹跟踪。该方法结合了 MPC 的预测优势、reinforcement learning (RL) 的快速响应能力以及自适应 sliding mode observer (SMO) 的鲁棒性。

问题与动机

使用 MPC 的传统 UAV 控制器在模型失配、风扰动和计算延迟下表现不佳，导致残余跟踪误差和收敛缓慢。本工作通过两项创新解决这些挑战：

离线训练的 RL 热启动策略以加速 MPC 收敛
Adaptive Super-Twisting Sliding Mode Observer (AST-SMO) 以估计和抑制实时扰动

技术贡献

1. 基于 RL 的热启动

通过在专家 MPC 轨迹上进行模仿学习，训练了一个方向条件策略。
在实时控制中，它为 MPC 求解器提供与轨迹一致的初始猜测，将早期跟踪误差降低了 16.9%，计算时间减少了 38.7%。

2. 用于扰动估计的 AST-SMO

SMO 使用平滑双曲函数实时估计外部扰动，以避免抖振。
自适应增益调节机制动态调整灵敏度以实现更好的收敛。

3. 扰动感知 MPC

MPC 被重新构建以纳入来自 AST-SMO 的实时估计： \[ x_{k+1} = Ax_k + Bu_k + E(\hat{d}_k) \]
目标：最小化跟踪误差和控制能耗，同时维持系统约束。

仿真结果

在正弦和噪声扰动下的 12 自由度四旋翼模型上进行了评估。
ROAM 实现了：
- 早期跟踪精度提升 16.9%
- 计算时间减少 38.7%
- 在强外部扰动下相比经典 MPC 具有更优的轨迹跟随性能

结论

ROAM 表明，RL、观测器与 MPC 的深度集成可产生具有更快收敛速度、更好稳定性和更高韧性的控制系统。其轻量化和模块化设计使其非常适合在嵌入式 UAV 平台上进行实时部署。

最近更新于 4月 5, 2026

← PRISM: Privacy-Aware Routing for Adaptive Cloud–Edge LLM Inference with Semantic Sketch Collaboration 7月 30, 2025

Can Large Language Models Credibly Stand in for Humans in Game-Theoretic Experiments? 4月 17, 2025 →