一个受治理的「交付平面」基准,关注的不是 LLM agent 能否把某个指标拉高,而是它能否被信任去交付 post-training as a service。前沿 agent 在真实 H200 与 A40 硬件、8B–70B 基座上跑完十个受治理阶段;风险恰恰存在于失败无声的地方——判断与治理,而非配置器早已解决的算术。
硕士毕业论文。一个面向异质接触网络的可扩展逐人疫苗分配框架,在随机 SEPAILHRVD 模拟器上对比「群体级最优控制 + 度数启发式」与端到端强化学习。
首次对设备端 VLM 推理进行了系统性的能耗分析,揭示了 autoregressive decoding(而非 visual token 处理)主导了能耗(86–97%),颠覆了将 visual token 缩减作为主要效率优化策略的传统假设。
提出了一个统一的随机框架,结合基于 HSMM 的功耗建模和约束 MDP 优化,以实现 small language models (SLMs) 在边缘设备上的可持续部署。
设计了一个隐私感知的路由框架,为 LLM 推理在云端和边缘之间动态选择执行路径,结合自适应 LDP 和语义草图协作
开发了一种混合控制框架,将强化学习和滑模观测器集成到 MPC 中,实现扰动感知的 UAV 轨迹跟踪。
评估了 LLM 在策略性社会博弈中与人类行为的一致性,并提出 PRIME-Router 以增强角色一致性和适应性。
开发了优化与控制策略,以降低可再生能源驱动的 IoT 网络中的服务延迟
提出了一种新颖的基于 MILP 和 Digital Twin 的控制策略,用于优化近似 IoT 任务执行中的能耗。