PRISM: Privacy-Aware Routing for Adaptive Cloud–Edge LLM Inference with Semantic Sketch Collaboration

PRISM: Privacy-Aware Routing for Adaptive Cloud–Edge LLM Inference with Semantic Sketch Collaboration

PDF

[已被 2026 AAAI Conference on Artificial Intelligence 录用] — 即将发表

本项目提出了 PRISM,一个上下文感知的云-边推理框架,为 Large Language Model (LLM) 服务在隐私、效用和效率之间取得平衡。它通过根据用户输入的语义敏感度自适应调整保护策略,解决了统一隐私机制的关键局限。

目标

主要目标是在实际部署中实现隐私保护的 LLM 推理,将敏感的用户提示智能地路由到边缘设备和云端之间。PRISM 旨在:

  • 避免对无害输入添加不必要的噪声
  • 保持敏感提示的语义连贯性
  • 在不损害效用的前提下降低延迟和能耗

主要贡献

语义敏感的执行路由

  • 边缘端的软门控控制器利用上下文特征(例如命名实体、第一人称引用)评估实体级风险
  • 将提示路由到三条执行路径之一:
    • 仅边缘:用于高风险提示
    • 仅云端:用于低风险提示
    • 云-边协作:用于中等敏感度提示

自适应两层 Local Differential Privacy (LDP)

  • 每个敏感实体通过以下方式进行混淆:
    • 类别级扰动(例如掩蔽"诊断")
    • 值级扰动(例如将"HIV"替换为"Flu")
  • 隐私预算分配由敏感度权重模型引导,确保细粒度保护且不造成语义崩塌

语义草图协作协议

  • 带噪声的提示在云端处理,生成语义草图(例如高层次的抽象回复)
  • 边缘端的 Small Language Model (SLM) 利用原始上下文精化这些草图
  • 强隐私约束下实现高效用回复

结果与洞察

  • PRISM 相比 Uniform 和 Selective LDP 等基线方法,实现了最高 3 倍的延迟降低2.5 倍的能耗降低
  • 在强隐私预算下提供更高的 LLM-Judge 评分(最高 7.2)
  • 在效用和效率方面均优于现有最先进方法(例如 Split-and-Denoise、DP-Forward)
  • 8 种不同模型组合(例如 GPT-4o + StableLM)上表现稳健
MethodCt.(s)Ec.(J)IQ.
PRISM7.92687.26.88
Uniform LDP20.561707.65.72
Selective LDP21.221770.85.94
Edge-Only17.841573.95.09
Cloud-Only5.13296.38.14

更广泛的影响

PRISM 为医疗、金融和个人助理等敏感领域提供了选择性隐私保护推理,为以下方向铺平了道路:

  • 隐私关键环境中负责任地部署 LLM
  • 降低云-边基础设施的能耗成本
  • 弥合隐私与推理质量之间的权衡