Stochastic Power Modeling and Constrained MDP Optimization for On-Device SLM Inference

Stochastic Power Modeling and Constrained MDP Optimization for On-Device SLM Inference

[ICASSP 2026 投稿] — 审稿中

本研究提出了一个随机且可解释的框架,用于在严格的能耗和硬件约束下实现 small language models (SLMs) 的可持续设备端推理。通过捕获细粒度的 CPU/GPU 功耗动态,并利用约束 MDP 优化推理调度,本工作为边缘端自适应、资源感知的 AI 提供了原则性基础。

问题与动机

在智能手机、笔记本电脑或 IoT 节点上本地运行 SLM 可提供低延迟和隐私保护的 AI 服务,但这些设备面临有限的电池预算严格的功率上限。传统能耗模型无法捕获 SLM 推理中随机的、分阶段的 CPU/GPU 行为,使其不适用于多任务自适应部署

技术贡献

1. 基于 HSMM 的能耗建模

  • Gemma2-2BQwen3-4B 在 MT-Bench 上进行了细粒度功耗测量。
  • 分别使用 Hidden Semi-Markov Models (HSMMs) 对 CPU 和 GPU 功耗轨迹建模:
    • GPU:上升、平稳、衰减阶段。
    • CPU:低负载和高负载突发。
  • 在预测功耗波动方面优于 HMM 和 TCN 基线

2. 约束 MDP 建模

  • 定义了一个 CMDP,其中每个推理任务选择一种 SLM 配置(模型 + 量化方案)。
  • 状态:剩余能量预算。
  • 动作:候选 SLM 配置。
  • 奖励:LLM-as-a-Judge 质量评分
  • 约束:有限能量预算瞬时设备级功率上限

3. 基于 Q-Learning 的策略优化

  • 为六个候选动作构建了成本-奖励对。
  • 使用表格式 Q-learning 求解 CMDP:
    • 在 300 个回合中将平均奖励从 约 9 提升至约 15
    • 将能耗维持在预算的 85–90%
    • 保证不违反功率上限。

结果与洞察

  • HSMM 有效捕获了边缘推理中的分段平稳阶段
  • CMDP 优化揭示了清晰的能耗-质量权衡
  • 学习到的策略在遵守现实约束的同时显著提升了累计推理质量。

结论

本研究建立了首个统一数学框架,将 SLM 参数、随机能耗和推理质量联系起来。通过将基于 HSMM 的成本建模与 CMDP 优化相结合,实现了 SLM 在边缘和 IoT 环境中的可持续、自适应部署,为未来基于 deep RL 和多设备协同调度的扩展奠定了基础。