PRISM: Privacy-Aware Routing for Adaptive Cloud–Edge LLM Inference with Semantic Sketch Collaboration
PRISM: Privacy-Aware Routing for Adaptive Cloud–Edge LLM Inference with Semantic Sketch Collaboration
[已被 2026 AAAI Conference on Artificial Intelligence 录用] — 即将发表
本项目提出了 PRISM,一个上下文感知的云-边推理框架,为 Large Language Model (LLM) 服务在隐私、效用和效率之间取得平衡。它通过根据用户输入的语义敏感度自适应调整保护策略,解决了统一隐私机制的关键局限。
目标
主要目标是在实际部署中实现隐私保护的 LLM 推理,将敏感的用户提示智能地路由到边缘设备和云端之间。PRISM 旨在:
- 避免对无害输入添加不必要的噪声
- 保持敏感提示的语义连贯性
- 在不损害效用的前提下降低延迟和能耗
主要贡献
语义敏感的执行路由
- 边缘端的软门控控制器利用上下文特征(例如命名实体、第一人称引用)评估实体级风险
- 将提示路由到三条执行路径之一:
- 仅边缘:用于高风险提示
- 仅云端:用于低风险提示
- 云-边协作:用于中等敏感度提示
自适应两层 Local Differential Privacy (LDP)
- 每个敏感实体通过以下方式进行混淆:
- 类别级扰动(例如掩蔽"诊断")
- 值级扰动(例如将"HIV"替换为"Flu")
- 隐私预算分配由敏感度权重模型引导,确保细粒度保护且不造成语义崩塌
语义草图协作协议
- 带噪声的提示在云端处理,生成语义草图(例如高层次的抽象回复)
- 边缘端的 Small Language Model (SLM) 利用原始上下文精化这些草图
- 在强隐私约束下实现高效用回复
结果与洞察
- PRISM 相比 Uniform 和 Selective LDP 等基线方法,实现了最高 3 倍的延迟降低和 2.5 倍的能耗降低
- 在强隐私预算下提供更高的 LLM-Judge 评分(最高 7.2)
- 在效用和效率方面均优于现有最先进方法(例如 Split-and-Denoise、DP-Forward)
- 在 8 种不同模型组合(例如 GPT-4o + StableLM)上表现稳健
| Method | Ct.(s) | Ec.(J) | IQ. |
|---|---|---|---|
| PRISM | 7.92 | 687.2 | 6.88 |
| Uniform LDP | 20.56 | 1707.6 | 5.72 |
| Selective LDP | 21.22 | 1770.8 | 5.94 |
| Edge-Only | 17.84 | 1573.9 | 5.09 |
| Cloud-Only | 5.13 | 296.3 | 8.14 |
更广泛的影响
PRISM 为医疗、金融和个人助理等敏感领域提供了选择性隐私保护推理,为以下方向铺平了道路:
- 在隐私关键环境中负责任地部署 LLM
- 降低云-边基础设施的能耗成本
- 弥合隐私与推理质量之间的权衡