Stochastic Power Modeling and Constrained MDP Optimization for On-Device SLM Inference

[ICASSP 2026 投稿] — 审稿中

本研究提出了一个随机且可解释的框架，用于在严格的能耗和硬件约束下实现 small language models (SLMs) 的可持续设备端推理。通过捕获细粒度的 CPU/GPU 功耗动态，并利用约束 MDP 优化推理调度，本工作为边缘端自适应、资源感知的 AI 提供了原则性基础。

问题与动机

在智能手机、笔记本电脑或 IoT 节点上本地运行 SLM 可提供低延迟和隐私保护的 AI 服务，但这些设备面临有限的电池预算和严格的功率上限。传统能耗模型无法捕获 SLM 推理中随机的、分阶段的 CPU/GPU 行为，使其不适用于多任务自适应部署。

技术贡献

1. 基于 HSMM 的能耗建模

对 Gemma2-2B 和 Qwen3-4B 在 MT-Bench 上进行了细粒度功耗测量。
分别使用 Hidden Semi-Markov Models (HSMMs) 对 CPU 和 GPU 功耗轨迹建模：
- GPU：上升、平稳、衰减阶段。
- CPU：低负载和高负载突发。
在预测功耗波动方面优于 HMM 和 TCN 基线。

2. 约束 MDP 建模

定义了一个 CMDP，其中每个推理任务选择一种 SLM 配置（模型 + 量化方案）。
状态：剩余能量预算。
动作：候选 SLM 配置。
奖励：LLM-as-a-Judge 质量评分。
约束：有限能量预算和瞬时设备级功率上限。

3. 基于 Q-Learning 的策略优化

为六个候选动作构建了成本-奖励对。
使用表格式 Q-learning 求解 CMDP：
- 在 300 个回合中将平均奖励从 约 9 提升至约 15。
- 将能耗维持在预算的 85–90%。
- 保证不违反功率上限。

结果与洞察

HSMM 有效捕获了边缘推理中的分段平稳阶段。
CMDP 优化揭示了清晰的能耗-质量权衡。
学习到的策略在遵守现实约束的同时显著提升了累计推理质量。

结论

本研究建立了首个统一数学框架，将 SLM 参数、随机能耗和推理质量联系起来。通过将基于 HSMM 的成本建模与 CMDP 优化相结合，实现了 SLM 在边缘和 IoT 环境中的可持续、自适应部署，为未来基于 deep RL 和多设备协同调度的扩展奠定了基础。

最近更新于 4月 5, 2026

← Seeing is Free, Speaking is Not: Uncovering the True Energy Bottleneck in Edge VLM Inference 3月 27, 2026

PRISM: Privacy-Aware Routing for Adaptive Cloud–Edge LLM Inference with Semantic Sketch Collaboration 7月 30, 2025 →