Research | 占俊飞的个人主页

Research

Trains but Doesn't Learn: A Post-Training Delivery Benchmark for LLM Agents as Forward-Deployed Engineers

Trains but Doesn't Learn: A Post-Training Delivery Benchmark for LLM Agents as Forward-Deployed Engineers

一个受治理的「交付平面」基准，关注的不是 LLM agent 能否把某个指标拉高，而是它能否被信任去交付 post-training as a service。前沿 agent 在真实 H200 与 A40 硬件、8B–70B 基座上跑完十个受治理阶段；风险恰恰存在于失败无声的地方——判断与治理，而非配置器早已解决的算术。

6月 17, 2026

Bridging Optimal Control And Reinforcement Learning For Node-Level Vaccine Allocation: A Regime-Based Comparative Analysis

Reinforcement Learning

Bridging Optimal Control And Reinforcement Learning For Node-Level Vaccine Allocation: A Regime-Based Comparative Analysis

硕士毕业论文。一个面向异质接触网络的可扩展逐人疫苗分配框架，在随机 SEPAILHRVD 模拟器上对比「群体级最优控制 + 度数启发式」与端到端强化学习。

4月 23, 2026

Seeing is Free, Speaking is Not: Uncovering the True Energy Bottleneck in Edge VLM Inference

Vision-Language Models

Seeing is Free, Speaking is Not: Uncovering the True Energy Bottleneck in Edge VLM Inference

首次对设备端 VLM 推理进行了系统性的能耗分析，揭示了 autoregressive decoding（而非 visual token 处理）主导了能耗（86–97%），颠覆了将 visual token 缩减作为主要效率优化策略的传统假设。

3月 27, 2026

Stochastic Power Modeling and Constrained MDP Optimization for On-Device SLM Inference

Small Language Models

Stochastic Power Modeling and Constrained MDP Optimization for On-Device SLM Inference

提出了一个统一的随机框架，结合基于 HSMM 的功耗建模和约束 MDP 优化，以实现 small language models (SLMs) 在边缘设备上的可持续部署。

9月 22, 2025

PRISM: Privacy-Aware Routing for Adaptive Cloud–Edge LLM Inference with Semantic Sketch Collaboration

PRISM: Privacy-Aware Routing for Adaptive Cloud–Edge LLM Inference with Semantic Sketch Collaboration

设计了一个隐私感知的路由框架，为 LLM 推理在云端和边缘之间动态选择执行路径，结合自适应 LDP 和语义草图协作

7月 30, 2025

RL-Enhanced Disturbance-Aware MPC for Robust UAV Trajectory Tracking

RL-Enhanced Disturbance-Aware MPC for Robust UAV Trajectory Tracking

开发了一种混合控制框架，将强化学习和滑模观测器集成到 MPC 中，实现扰动感知的 UAV 轨迹跟踪。

5月 7, 2025

Can Large Language Models Credibly Stand in for Humans in Game-Theoretic Experiments?

Can Large Language Models Credibly Stand in for Humans in Game-Theoretic Experiments?

评估了 LLM 在策略性社会博弈中与人类行为的一致性，并提出 PRIME-Router 以增强角色一致性和适应性。

4月 17, 2025

Minimizing Maximum Age of Service in Virtualized Green IoT Networks

Minimizing Maximum Age of Service in Virtualized Green IoT Networks

开发了优化与控制策略，以降低可再生能源驱动的 IoT 网络中的服务延迟

12月 7, 2024

Task Offloading and Approximate Computing in Solar Powered IoT Networks

Task Offloading and Approximate Computing in Solar Powered IoT Networks

提出了一种新颖的基于 MILP 和 Digital Twin 的控制策略，用于优化近似 IoT 任务执行中的能耗。

1月 7, 2024