PRISM: Privacy-Aware Routing for Adaptive Cloud–Edge LLM Inference with Semantic Sketch Collaboration

PRISM: Privacy-Aware Routing for Adaptive Cloud–Edge LLM Inference with Semantic Sketch Collaboration

[已被 2026 AAAI Conference on Artificial Intelligence 录用] — 即将发表

本项目提出了 PRISM，一个上下文感知的云-边推理框架，为 Large Language Model (LLM) 服务在隐私、效用和效率之间取得平衡。它通过根据用户输入的语义敏感度自适应调整保护策略，解决了统一隐私机制的关键局限。

目标

主要目标是在实际部署中实现隐私保护的 LLM 推理，将敏感的用户提示智能地路由到边缘设备和云端之间。PRISM 旨在：

避免对无害输入添加不必要的噪声
保持敏感提示的语义连贯性
在不损害效用的前提下降低延迟和能耗

主要贡献

语义敏感的执行路由

边缘端的软门控控制器利用上下文特征（例如命名实体、第一人称引用）评估实体级风险
将提示路由到三条执行路径之一：
- 仅边缘：用于高风险提示
- 仅云端：用于低风险提示
- 云-边协作：用于中等敏感度提示

自适应两层 Local Differential Privacy (LDP)

每个敏感实体通过以下方式进行混淆：
- 类别级扰动（例如掩蔽"诊断"）
- 值级扰动（例如将"HIV"替换为"Flu"）
隐私预算分配由敏感度权重模型引导，确保细粒度保护且不造成语义崩塌

语义草图协作协议

带噪声的提示在云端处理，生成语义草图（例如高层次的抽象回复）
边缘端的 Small Language Model (SLM) 利用原始上下文精化这些草图
在强隐私约束下实现高效用回复

结果与洞察

PRISM 相比 Uniform 和 Selective LDP 等基线方法，实现了最高 3 倍的延迟降低和 2.5 倍的能耗降低
在强隐私预算下提供更高的 LLM-Judge 评分（最高 7.2）
在效用和效率方面均优于现有最先进方法（例如 Split-and-Denoise、DP-Forward）
在 8 种不同模型组合（例如 GPT-4o + StableLM）上表现稳健

Method	Ct.(s)	Ec.(J)	IQ.
PRISM	7.92	687.2	6.88
Uniform LDP	20.56	1707.6	5.72
Selective LDP	21.22	1770.8	5.94
Edge-Only	17.84	1573.9	5.09
Cloud-Only	5.13	296.3	8.14

更广泛的影响

PRISM 为医疗、金融和个人助理等敏感领域提供了选择性隐私保护推理，为以下方向铺平了道路：

在隐私关键环境中负责任地部署 LLM
降低云-边基础设施的能耗成本
弥合隐私与推理质量之间的权衡

最近更新于 4月 5, 2026

← Stochastic Power Modeling and Constrained MDP Optimization for On-Device SLM Inference 9月 22, 2025

RL-Enhanced Disturbance-Aware MPC for Robust UAV Trajectory Tracking 5月 7, 2025 →