Bridging Optimal Control And Reinforcement Learning For Node-Level Vaccine Allocation: A Regime-Based Comparative Analysis

Research

📄 硕士毕业论文，宾夕法尼亚大学（2026 年）。导师：Prof. Saswati Sarkar

疫情爆发的最初几周，疫苗必须在大规模、异质的人群中分配，每日剂量预算严格受限，决策周期跨越数周到数月。任何可部署的策略最终都必须指名具体的个体——而不是给出群体层面的比例——并且要同时应对三大结构性难题：长时序的延迟奖励、C(N, K) 量级的组合动作空间、以及节点在网络中的位置和它的人口学群体身份同样重要。

交互式 Demo

配套 demo 用可视化方式串起整篇论文：

三组人口模型 —— 普通基线 (X)、高危老年 (Y)、高接触 hub (Z)，每组各自有出现症状、住院、致死的分支概率。
10 状态 SEPAILHRVD 疾病模型 —— 潜伏期、症状前、无症状、有症状、晚期、住院、康复、接种、死亡。
Barabási–Albert 网络生长 —— 看 preferential attachment 一步步生成无标度接触图，幂律 degree 长尾自然涌现。
随机模拟器 —— 自定义任意比例的初始感染种子，看不接种疫苗时疫情逐日演变，给出"什么都不做"的死亡基线。
四方法对比 —— OC-Random、OC-high、Naive RL、Node RL 在同一 seed 下的实测结果。

👉 点击打开交互式 Demo

主要贡献

C1 — 随机节点级模拟器：一个高保真模拟环境，将显式 Barabási–Albert 接触网络与 10 状态 SEPAILHRVD 模型结合，刻画感染事件的内在随机性与个体层面的风险异质性。
C2 — OC-high：用"组内度数最高优先"的节点级启发式增强群体级最优控制，连接聚合策略与个体行为。
C3 — Node RL：端到端 actor–critic，使用共享参数的打分 MLP 加 Gumbel-Top-$K$ 重参数化采样，把策略梯度方差从独立 Bernoulli 的 $\Theta(N)$ 压到 $O(K)$。
C4 — Regime Map：在人口规模、时间窗、初始感染比三轴上系统对比，绘出每种方法的最优适用区，明确何时 Node RL 的额外算力值得花。

核心结论

在大多数实战场景下，OC-high 的死亡数和 Node RL 持平甚至更优，且训练成本只有它的约 1/70（9 秒 vs. 625 秒）。
Node RL 的优势真实存在但很有限：仅在短时间窗、或者初始感染中 hub 比例很高时才赢——这两种情形正好是 OC-high 背后的均场假设结构性失效的地方。
仅"组内度数最高优先"这一条启发式就贡献了平均 5–10% 的死亡数下降，量级和"群体级 OC 速率"本身相当。

最近更新于 4月 25, 2026

← Trains but Doesn't Learn: A Post-Training Delivery Benchmark for LLM Agents as Forward-Deployed Engineers 6月 17, 2026

Seeing is Free, Speaking is Not: Uncovering the True Energy Bottleneck in Edge VLM Inference 3月 27, 2026 →