Research | 占俊飞的个人主页

Seeing is Free, Speaking is Not: Uncovering the True Energy Bottleneck in Edge VLM Inference

Fri, 27 Mar 2026 00:00:00 +0000

Vision-Language Models (VLMs) 是具身智能的感知核心，但其在边缘硬件上的能耗特征仍未被充分理解。现有的效率优化工作主要集中在减少 visual tokens，隐式地将视觉处理视为主要能耗来源。我们通过首次系统性的设备端 VLM 推理能耗分析推翻了这一隐含假设，实验涵盖五个模型、三种架构系列、四种输入分辨率，以及两个硬件平台（NVIDIA RTX 3070 和 Jetson Orin NX）。

主要发现

我们的分析得出三个核心发现：

1. 功率是模型的固有指纹

平均推理功率是模型固有常量，不随输入分辨率、图像复杂度和提示类型变化，在所有条件下的变异不超过 5%。这意味着不同输入之间的所有能耗差异必然源于推理时间的变化，而非功率消耗的变化。

2. Decode 阶段主导能耗

Autoregressive decoding 占据了总能耗的 86% 至 97%。由于 prefill 和 decode 阶段之间的计算密集型与内存密集型不对称性，每个输出 token 的时钟时间是每个输入 token 的 11 至 39 倍。输出 token 数量是延迟和能耗的主要驱动因素。

3. Visual Token 剪枝的假象

即使移除所有 visual tokens，对于固定 token 模型最多也只能节省总能耗的 10%。相比之下，将输出长度减少 50% 可节省高达 97% 的能耗。这些发现揭示了 visual token pruning 的根本局限性：它针对的是 prefill 阶段，而该阶段本身只占总能耗的少数部分。

贡献

能耗分解为 prefill 与 decode 阶段，展示了所有配置下 decode 的主导地位
对 visual token pruning 节能效果的理论上界
跨模型能耗预测器 — 一个具有五个特征（模型大小、输入 token 数、输出 token 数及交互项）的线性模型，无需逐模型校准即可解释 98.6% 的能耗方差（MAPE = 10.3%）
部署指南：预算应关注输出而非输入；根据部署场景匹配 token 策略；预估内容驱动的能耗变化

结论

边缘 VLM 推理的真正能耗瓶颈不在于看，而在于说：不是模型看到了什么，而是它说了多少。我们的能耗分解框架为资源受限的边缘设备上的节能型 VLM 部署提供了可操作的指导。

[ACM MM 2026 投稿] — 审稿中

Stochastic Power Modeling and Constrained MDP Optimization for On-Device SLM Inference

Mon, 22 Sep 2025 00:00:00 +0000

[ICASSP 2026 投稿] — 审稿中

本研究提出了一个随机且可解释的框架，用于在严格的能耗和硬件约束下实现 small language models (SLMs) 的可持续设备端推理。通过捕获细粒度的 CPU/GPU 功耗动态，并利用约束 MDP 优化推理调度，本工作为边缘端自适应、资源感知的 AI 提供了原则性基础。

问题与动机

在智能手机、笔记本电脑或 IoT 节点上本地运行 SLM 可提供低延迟和隐私保护的 AI 服务，但这些设备面临有限的电池预算和严格的功率上限。传统能耗模型无法捕获 SLM 推理中随机的、分阶段的 CPU/GPU 行为，使其不适用于多任务自适应部署。

技术贡献

1. 基于 HSMM 的能耗建模

对 Gemma2-2B 和 Qwen3-4B 在 MT-Bench 上进行了细粒度功耗测量。
分别使用 Hidden Semi-Markov Models (HSMMs) 对 CPU 和 GPU 功耗轨迹建模：
- GPU：上升、平稳、衰减阶段。
- CPU：低负载和高负载突发。
在预测功耗波动方面优于 HMM 和 TCN 基线。

2. 约束 MDP 建模

定义了一个 CMDP，其中每个推理任务选择一种 SLM 配置（模型 + 量化方案）。
状态：剩余能量预算。
动作：候选 SLM 配置。
奖励：LLM-as-a-Judge 质量评分。
约束：有限能量预算和瞬时设备级功率上限。

3. 基于 Q-Learning 的策略优化

为六个候选动作构建了成本-奖励对。
使用表格式 Q-learning 求解 CMDP：
- 在 300 个回合中将平均奖励从 约 9 提升至约 15。
- 将能耗维持在预算的 85–90%。
- 保证不违反功率上限。

结果与洞察

HSMM 有效捕获了边缘推理中的分段平稳阶段。
CMDP 优化揭示了清晰的能耗-质量权衡。
学习到的策略在遵守现实约束的同时显著提升了累计推理质量。

结论

本研究建立了首个统一数学框架，将 SLM 参数、随机能耗和推理质量联系起来。通过将基于 HSMM 的成本建模与 CMDP 优化相结合，实现了 SLM 在边缘和 IoT 环境中的可持续、自适应部署，为未来基于 deep RL 和多设备协同调度的扩展奠定了基础。

PRISM: Privacy-Aware Routing for Adaptive Cloud–Edge LLM Inference with Semantic Sketch Collaboration

Wed, 30 Jul 2025 00:00:00 +0000

[已被 2026 AAAI Conference on Artificial Intelligence 录用] — 即将发表

本项目提出了 PRISM，一个上下文感知的云-边推理框架，为 Large Language Model (LLM) 服务在隐私、效用和效率之间取得平衡。它通过根据用户输入的语义敏感度自适应调整保护策略，解决了统一隐私机制的关键局限。

目标

主要目标是在实际部署中实现隐私保护的 LLM 推理，将敏感的用户提示智能地路由到边缘设备和云端之间。PRISM 旨在：

避免对无害输入添加不必要的噪声
保持敏感提示的语义连贯性
在不损害效用的前提下降低延迟和能耗

主要贡献

语义敏感的执行路由

边缘端的软门控控制器利用上下文特征（例如命名实体、第一人称引用）评估实体级风险
将提示路由到三条执行路径之一：
- 仅边缘：用于高风险提示
- 仅云端：用于低风险提示
- 云-边协作：用于中等敏感度提示

自适应两层 Local Differential Privacy (LDP)

每个敏感实体通过以下方式进行混淆：
- 类别级扰动（例如掩蔽"诊断"）
- 值级扰动（例如将"HIV"替换为"Flu"）
隐私预算分配由敏感度权重模型引导，确保细粒度保护且不造成语义崩塌

语义草图协作协议

带噪声的提示在云端处理，生成语义草图（例如高层次的抽象回复）
边缘端的 Small Language Model (SLM) 利用原始上下文精化这些草图
在强隐私约束下实现高效用回复

结果与洞察

PRISM 相比 Uniform 和 Selective LDP 等基线方法，实现了最高 3 倍的延迟降低和 2.5 倍的能耗降低
在强隐私预算下提供更高的 LLM-Judge 评分（最高 7.2）
在效用和效率方面均优于现有最先进方法（例如 Split-and-Denoise、DP-Forward）
在 8 种不同模型组合（例如 GPT-4o + StableLM）上表现稳健

Method	Ct.(s)	Ec.(J)	IQ.
PRISM	7.92	687.2	6.88
Uniform LDP	20.56	1707.6	5.72
Selective LDP	21.22	1770.8	5.94
Edge-Only	17.84	1573.9	5.09
Cloud-Only	5.13	296.3	8.14

更广泛的影响

PRISM 为医疗、金融和个人助理等敏感领域提供了选择性隐私保护推理，为以下方向铺平了道路：

在隐私关键环境中负责任地部署 LLM
降低云-边基础设施的能耗成本
弥合隐私与推理质量之间的权衡

RL-Enhanced Disturbance-Aware MPC for Robust UAV Trajectory Tracking

Wed, 07 May 2025 00:00:00 +0000

[已被 IEEE SMC 2025 录用] — 即将发表

本研究提出了 ROAM，一种新颖的 RL 增强、扰动感知的 MPC 框架，用于不确定和动态环境中的精确 UAV 轨迹跟踪。该方法结合了 MPC 的预测优势、reinforcement learning (RL) 的快速响应能力以及自适应 sliding mode observer (SMO) 的鲁棒性。

问题与动机

使用 MPC 的传统 UAV 控制器在模型失配、风扰动和计算延迟下表现不佳，导致残余跟踪误差和收敛缓慢。本工作通过两项创新解决这些挑战：

离线训练的 RL 热启动策略以加速 MPC 收敛
Adaptive Super-Twisting Sliding Mode Observer (AST-SMO) 以估计和抑制实时扰动

技术贡献

1. 基于 RL 的热启动

通过在专家 MPC 轨迹上进行模仿学习，训练了一个方向条件策略。
在实时控制中，它为 MPC 求解器提供与轨迹一致的初始猜测，将早期跟踪误差降低了 16.9%，计算时间减少了 38.7%。

2. 用于扰动估计的 AST-SMO

SMO 使用平滑双曲函数实时估计外部扰动，以避免抖振。
自适应增益调节机制动态调整灵敏度以实现更好的收敛。

3. 扰动感知 MPC

MPC 被重新构建以纳入来自 AST-SMO 的实时估计： \[ x_{k+1} = Ax_k + Bu_k + E(\hat{d}_k) \]
目标：最小化跟踪误差和控制能耗，同时维持系统约束。

仿真结果

在正弦和噪声扰动下的 12 自由度四旋翼模型上进行了评估。
ROAM 实现了：
- 早期跟踪精度提升 16.9%
- 计算时间减少 38.7%
- 在强外部扰动下相比经典 MPC 具有更优的轨迹跟随性能

结论

ROAM 表明，RL、观测器与 MPC 的深度集成可产生具有更快收敛速度、更好稳定性和更高韧性的控制系统。其轻量化和模块化设计使其非常适合在嵌入式 UAV 平台上进行实时部署。

Can Large Language Models Credibly Stand in for Humans in Game-Theoretic Experiments?

Thu, 17 Apr 2025 00:00:00 +0000

本研究探讨了使用 Large Language Models (LLMs) 作为行为博弈论实验中人类参与者代理的可行性。我们评估了四个 LLM——GPT-4o、Llama-3.3-70B-Instruct、Llama-3.3-8B-Instruct 和 DeepSeek-R1，涵盖三个经典博弈：Prisoner’s Dilemma、Ultimatum Game 和 Public Goods Game。

研究目标

评估 LLM 相对于人类规范的行为一致性、角色一致性和策略适应性。
设计一个**模块化多智能体框架（PRIME-Router）**以提高一致性和适应性。
使用基于 MBTI 的角色提示对 LLM 行为进行基准测试：Diplomat、Analyst、Sentinel、Explorer。

核心贡献

1. 经典博弈中的行为评估

使用三个新指标对 LLM 进行了与人类行为的对标：

BAM (Behavioral Alignment Measure)：与人类行为分布的相似度
PCI (Persona Consistency Index)：对提示的社会角色的遵循程度
ASP (Adaptive Strategic Profile)：对不断变化的博弈情境的响应能力

主要发现：

大多数 LLM 表现出较高的初始 BAM，但在重复博弈中的适应性一致性方面表现不佳。
GPT-4o 和 LLaMA-3.3-70B 在单次博弈中展现了优秀的角色一致性。

2. PRIME-Router 框架

为克服适应性和一致性的局限，我们提出了 PRIME-Router，一种模块化 MoE 风格的架构：

生成专业化子角色（例如 Empathy Enforcer、Strategic Planner）
根据经验性能为每个子角色分配最合适的 LLM
通过协作模式（例如 star、debate、chain）聚合多智能体输出

PRIME-Router 的提升效果：

PCI 最高提升 0.23
ASP 最高提升 0.32 （在重复博弈中）。

3. 启示与展望

LLM 能够可信地模拟类人行为，但策略深度和长期角色保真度仍是挑战。
PRIME-Router 为社会科学实验、政策建模和在线平台模拟中的高性价比 AI 智能体铺平了道路。

结论

本研究揭示了 LLM 在行为博弈模拟中的潜力与局限。像 PRIME-Router 这样的结构化多智能体设计显著增强了真实性，为实验社会科学中的AI 驱动人类建模提供了新范式。

[AAAI 2026 投稿] — 审稿中

Minimizing Maximum Age of Service in Virtualized Green IoT Networks

Sat, 07 Dec 2024 00:00:00 +0000

本项目解决了在太阳能驱动的绿色 IoT 网络中嵌入和调度应用的挑战，目标是最小化最大 Age of Service (AoS) — 一个表示数据生成到服务完成之间延迟的新鲜度指标。

目标

本研究聚焦于由可再生能源（太阳能）驱动的虚拟化、具备计算能力的 IoT 基础设施。应用被建模为包含 Virtual Network Functions (VNFs) 的 Directed Acyclic Graphs (DAGs)，需要在波动的能量和计算约束下执行。

主要贡献

Mixed Integer Linear Programming (MILP) 建模

提出了首个 MILP 模型，联合优化：
- 设备选择与采样时间
- DAG 请求嵌入决策
- 设备、网关和服务器的能耗
目标：最小化所有 DAG 请求的最大 AoS。

启发式与预测控制方案

开发了 GreedyOL，一种基于当前 AoS 嵌入 DAG 的快速启发式算法。
提出了 RHCOP，一种 Receding Horizon Control Optimization 框架：
- 利用 Gaussian Mixture Models (GMMs) 预测太阳能到达量和无线信道增益。
- 仅使用因果（非未来）信息实现实时调度。

结果与洞察

RHCOP 实现了最优 MILP 的 1.07 倍 min-max AoS，GreedyOL 为 1.13 倍。
更多的网关和服务器由于增强的冗余性和灵活性而降低了 AoS。
VNF-C（采集）和 VNF-P（处理）数量相等时可获得最优新鲜度。

更广泛的影响

所提出的系统为能耗感知、延迟敏感的 IoT 应用奠定了基础，尤其适用于偏远或能源受限的环境。研究结果揭示了计算新鲜度、资源分配与绿色网络部署策略之间的权衡关系。

[IEEE Transactions on Services Computing 投稿] — 即将发表

Task Offloading and Approximate Computing in Solar Powered IoT Networks

Sun, 07 Jan 2024 00:00:00 +0000

本研究提出了一种新颖的框架，通过任务卸载和近似计算来最小化太阳能驱动 IoT 网络的总能耗。设备可以选择本地执行（精确或近似）或将任务卸载到太阳能驱动的边缘服务器。

核心目标

在可容忍误差的情况下，通过允许近似任务执行来降低能耗。
利用 Digital Twin (DT) 估计未来的能量可用性和信道条件。
优化卸载决策以及跨时隙和信道的资源分配。

技术亮点

MILP 建模

设计了首个 MILP，联合优化：
- 任务卸载决策
- 近似与精确执行
- 信道分配
- 虚拟机（VM）分配
捕获了能量到达、CPU 周期、近似误差界和 VM 容量等约束条件。

DT 辅助的滑动窗口控制 (DT-RHC)

引入了基于 DT 的控制算法，使用：
- Gaussian Mixture Models (GMMs) 预测能量和信道增益
- 滑动窗口 MILP 优化实现动态调度
仅使用因果（历史）数据即可实现 MILP 最优值 1.62 倍以内的能耗

结果与评估

DT-RHC 在以下指标上显著优于随机策略：
- 能耗与设备数量的关系
- 近似比率的影响
- 扩展时间范围内的任务完成率
仿真在 100×100 m² 部署上使用 Python + Gurobi 进行，采用真实的太阳能输入和无线模型。

结论

本研究证明了在可再生能源驱动的 IoT 环境中集成近似计算和智能卸载的可行性。它为未来的分布式优化和自适应能耗感知网络控制提供了坚实基础。

IEEE Paper DOI: 10.1109/LNET.2023.3328893