Seeing is Free, Speaking is Not: Uncovering the True Energy Bottleneck in Edge VLM Inference

Fri, 27 Mar 2026 00:00:00 +0000

Vision-Language Models (VLMs) 是具身智能的感知核心，但其在边缘硬件上的能耗特征仍未被充分理解。现有的效率优化工作主要集中在减少 visual tokens，隐式地将视觉处理视为主要能耗来源。我们通过首次系统性的设备端 VLM 推理能耗分析推翻了这一隐含假设，实验涵盖五个模型、三种架构系列、四种输入分辨率，以及两个硬件平台（NVIDIA RTX 3070 和 Jetson Orin NX）。

主要发现

我们的分析得出三个核心发现：

1. 功率是模型的固有指纹

平均推理功率是模型固有常量，不随输入分辨率、图像复杂度和提示类型变化，在所有条件下的变异不超过 5%。这意味着不同输入之间的所有能耗差异必然源于推理时间的变化，而非功率消耗的变化。

2. Decode 阶段主导能耗

Autoregressive decoding 占据了总能耗的 86% 至 97%。由于 prefill 和 decode 阶段之间的计算密集型与内存密集型不对称性，每个输出 token 的时钟时间是每个输入 token 的 11 至 39 倍。输出 token 数量是延迟和能耗的主要驱动因素。

3. Visual Token 剪枝的假象

即使移除所有 visual tokens，对于固定 token 模型最多也只能节省总能耗的 10%。相比之下，将输出长度减少 50% 可节省高达 97% 的能耗。这些发现揭示了 visual token pruning 的根本局限性：它针对的是 prefill 阶段，而该阶段本身只占总能耗的少数部分。

贡献

能耗分解为 prefill 与 decode 阶段，展示了所有配置下 decode 的主导地位
对 visual token pruning 节能效果的理论上界
跨模型能耗预测器 — 一个具有五个特征（模型大小、输入 token 数、输出 token 数及交互项）的线性模型，无需逐模型校准即可解释 98.6% 的能耗方差（MAPE = 10.3%）
部署指南：预算应关注输出而非输入；根据部署场景匹配 token 策略；预估内容驱动的能耗变化

结论

边缘 VLM 推理的真正能耗瓶颈不在于看，而在于说：不是模型看到了什么，而是它说了多少。我们的能耗分解框架为资源受限的边缘设备上的节能型 VLM 部署提供了可操作的指导。

[ACM MM 2026 投稿] — 审稿中

Vision-Language Models | 占俊飞的个人主页

Seeing is Free, Speaking is Not: Uncovering the True Energy Bottleneck in Edge VLM Inference

主要发现

1. 功率是模型的固有指纹

2. Decode 阶段主导能耗

3. Visual Token 剪枝的假象

贡献

结论