<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Research | 占俊飞的个人主页</title><link>https://junfei-z.github.io/zh/research/</link><atom:link href="https://junfei-z.github.io/zh/research/index.xml" rel="self" type="application/rss+xml"/><description>Research</description><generator>Hugo Blox Builder (https://hugoblox.com)</generator><language>zh-Hans</language><image><url>https://junfei-z.github.io/media/icon_hu70bcee51a3cd7a7338014254a2e0c844_1401285_512x512_fill_lanczos_center_3.png</url><title>Research</title><link>https://junfei-z.github.io/zh/research/</link></image><item><title>Seeing is Free, Speaking is Not: Uncovering the True Energy Bottleneck in Edge VLM Inference</title><link>https://junfei-z.github.io/zh/research/seeing-is-free-speaking-is-not/</link><pubDate>Fri, 27 Mar 2026 00:00:00 +0000</pubDate><guid>https://junfei-z.github.io/zh/research/seeing-is-free-speaking-is-not/</guid><description>&lt;p>Vision-Language Models (VLMs) 是具身智能的感知核心，但其在边缘硬件上的能耗特征仍未被充分理解。现有的效率优化工作主要集中在减少 visual tokens，隐式地将视觉处理视为主要能耗来源。我们通过&lt;strong>首次系统性的设备端 VLM 推理能耗分析&lt;/strong>推翻了这一隐含假设，实验涵盖五个模型、三种架构系列、四种输入分辨率，以及两个硬件平台（NVIDIA RTX 3070 和 Jetson Orin NX）。&lt;/p>
&lt;h2 id="主要发现">主要发现&lt;/h2>
&lt;p>我们的分析得出三个核心发现：&lt;/p>
&lt;h3 id="1-功率是模型的固有指纹">1. 功率是模型的固有指纹&lt;/h3>
&lt;p>平均推理功率是&lt;strong>模型固有常量&lt;/strong>，不随输入分辨率、图像复杂度和提示类型变化，在所有条件下的变异不超过 5%。这意味着不同输入之间的所有能耗差异必然源于&lt;strong>推理时间&lt;/strong>的变化，而非功率消耗的变化。&lt;/p>
&lt;h3 id="2-decode-阶段主导能耗">2. Decode 阶段主导能耗&lt;/h3>
&lt;p>Autoregressive decoding 占据了&lt;strong>总能耗的 86% 至 97%&lt;/strong>。由于 prefill 和 decode 阶段之间的计算密集型与内存密集型不对称性，每个输出 token 的时钟时间是每个输入 token 的 &lt;strong>11 至 39 倍&lt;/strong>。输出 token 数量是延迟和能耗的主要驱动因素。&lt;/p>
&lt;h3 id="3-visual-token-剪枝的假象">3. Visual Token 剪枝的假象&lt;/h3>
&lt;p>即使移除&lt;strong>所有 visual tokens&lt;/strong>，对于固定 token 模型最多也只能节省&lt;strong>总能耗的 10%&lt;/strong>。相比之下，将输出长度减少 50% 可节省高达 &lt;strong>97%&lt;/strong> 的能耗。这些发现揭示了 visual token pruning 的根本局限性：它针对的是 prefill 阶段，而该阶段本身只占总能耗的少数部分。&lt;/p>
&lt;h2 id="贡献">贡献&lt;/h2>
&lt;ul>
&lt;li>&lt;strong>能耗分解&lt;/strong>为 prefill 与 decode 阶段，展示了所有配置下 decode 的主导地位&lt;/li>
&lt;li>对 visual token pruning 节能效果的&lt;strong>理论上界&lt;/strong>&lt;/li>
&lt;li>&lt;strong>跨模型能耗预测器&lt;/strong> — 一个具有五个特征（模型大小、输入 token 数、输出 token 数及交互项）的线性模型，无需逐模型校准即可解释 &lt;strong>98.6% 的能耗方差&lt;/strong>（MAPE = 10.3%）&lt;/li>
&lt;li>&lt;strong>部署指南&lt;/strong>：预算应关注输出而非输入；根据部署场景匹配 token 策略；预估内容驱动的能耗变化&lt;/li>
&lt;/ul>
&lt;h2 id="结论">结论&lt;/h2>
&lt;p>边缘 VLM 推理的真正能耗瓶颈不在于&lt;em>看&lt;/em>，而在于&lt;em>说&lt;/em>：不是模型看到了什么，而是它说了多少。我们的能耗分解框架为资源受限的边缘设备上的节能型 VLM 部署提供了可操作的指导。&lt;/p>
&lt;p>[ACM MM 2026 投稿] — 审稿中&lt;/p></description></item><item><title>Stochastic Power Modeling and Constrained MDP Optimization for On-Device SLM Inference</title><link>https://junfei-z.github.io/zh/research/power_modeling/</link><pubDate>Mon, 22 Sep 2025 00:00:00 +0000</pubDate><guid>https://junfei-z.github.io/zh/research/power_modeling/</guid><description>&lt;p>[ICASSP 2026 投稿] — 审稿中&lt;/p>
&lt;p>本研究提出了一个&lt;strong>随机且可解释的框架&lt;/strong>，用于在严格的能耗和硬件约束下实现 &lt;strong>small language models (SLMs)&lt;/strong> 的可持续&lt;strong>设备端推理&lt;/strong>。通过捕获细粒度的 CPU/GPU 功耗动态，并利用约束 MDP 优化推理调度，本工作为&lt;strong>边缘端自适应、资源感知的 AI&lt;/strong> 提供了原则性基础。&lt;/p>
&lt;h2 id="问题与动机">问题与动机&lt;/h2>
&lt;p>在智能手机、笔记本电脑或 IoT 节点上本地运行 SLM 可提供&lt;strong>低延迟和隐私保护的 AI 服务&lt;/strong>，但这些设备面临&lt;strong>有限的电池预算&lt;/strong>和&lt;strong>严格的功率上限&lt;/strong>。传统能耗模型无法捕获 SLM 推理中随机的、分阶段的 CPU/GPU 行为，使其不适用于&lt;strong>多任务自适应部署&lt;/strong>。&lt;/p>
&lt;h2 id="技术贡献">技术贡献&lt;/h2>
&lt;h3 id="1-基于-hsmm-的能耗建模">1. 基于 HSMM 的能耗建模&lt;/h3>
&lt;ul>
&lt;li>对 &lt;strong>Gemma2-2B&lt;/strong> 和 &lt;strong>Qwen3-4B&lt;/strong> 在 MT-Bench 上进行了细粒度功耗测量。&lt;/li>
&lt;li>分别使用 &lt;strong>Hidden Semi-Markov Models (HSMMs)&lt;/strong> 对 CPU 和 GPU 功耗轨迹建模：
&lt;ul>
&lt;li>GPU：上升、平稳、衰减阶段。&lt;/li>
&lt;li>CPU：低负载和高负载突发。&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>在预测功耗波动方面&lt;strong>优于 HMM 和 TCN 基线&lt;/strong>。&lt;/li>
&lt;/ul>
&lt;h3 id="2-约束-mdp-建模">2. 约束 MDP 建模&lt;/h3>
&lt;ul>
&lt;li>定义了一个 &lt;strong>CMDP&lt;/strong>，其中每个推理任务选择一种 SLM 配置（模型 + 量化方案）。&lt;/li>
&lt;li>状态：剩余能量预算。&lt;/li>
&lt;li>动作：候选 SLM 配置。&lt;/li>
&lt;li>奖励：&lt;strong>LLM-as-a-Judge 质量评分&lt;/strong>。&lt;/li>
&lt;li>约束：&lt;strong>有限能量预算&lt;/strong>和&lt;strong>瞬时设备级功率上限&lt;/strong>。&lt;/li>
&lt;/ul>
&lt;h3 id="3-基于-q-learning-的策略优化">3. 基于 Q-Learning 的策略优化&lt;/h3>
&lt;ul>
&lt;li>为六个候选动作构建了成本-奖励对。&lt;/li>
&lt;li>使用表格式 Q-learning 求解 CMDP：
&lt;ul>
&lt;li>在 300 个回合中将平均奖励从 &lt;strong>约 9 提升至约 15&lt;/strong>。&lt;/li>
&lt;li>将能耗维持在&lt;strong>预算的 85–90%&lt;/strong>。&lt;/li>
&lt;li>保证不违反功率上限。&lt;/li>
&lt;/ul>
&lt;/li>
&lt;/ul>
&lt;h2 id="结果与洞察">结果与洞察&lt;/h2>
&lt;ul>
&lt;li>HSMM 有效捕获了边缘推理中的&lt;strong>分段平稳阶段&lt;/strong>。&lt;/li>
&lt;li>CMDP 优化揭示了清晰的&lt;strong>能耗-质量权衡&lt;/strong>。&lt;/li>
&lt;li>学习到的策略在&lt;strong>遵守现实约束&lt;/strong>的同时显著提升了累计推理质量。&lt;/li>
&lt;/ul>
&lt;h2 id="结论">结论&lt;/h2>
&lt;p>本研究建立了首个&lt;strong>统一数学框架&lt;/strong>，将 SLM 参数、随机能耗和推理质量联系起来。通过将基于 HSMM 的成本建模与 CMDP 优化相结合，实现了 SLM 在边缘和 IoT 环境中的&lt;strong>可持续、自适应部署&lt;/strong>，为未来基于 deep RL 和多设备协同调度的扩展奠定了基础。&lt;/p></description></item><item><title>PRISM: Privacy-Aware Routing for Adaptive Cloud–Edge LLM Inference with Semantic Sketch Collaboration</title><link>https://junfei-z.github.io/zh/research/prism/</link><pubDate>Wed, 30 Jul 2025 00:00:00 +0000</pubDate><guid>https://junfei-z.github.io/zh/research/prism/</guid><description>&lt;a href="https://junfei-z.github.io/prism_full.pdf" target="_blank">
&lt;img src="https://img.shields.io/badge/View%20Full%20Paper-PDF-red?logo=adobeacrobatreader&amp;logoColor=white" alt="PDF">
&lt;/a>
&lt;p>[已被 2026 AAAI Conference on Artificial Intelligence 录用] — 即将发表&lt;/p>
&lt;p>本项目提出了 &lt;strong>PRISM&lt;/strong>，一个上下文感知的云-边推理框架，为 &lt;strong>Large Language Model (LLM)&lt;/strong> 服务在隐私、效用和效率之间取得平衡。它通过根据用户输入的&lt;strong>语义敏感度&lt;/strong>自适应调整保护策略，解决了统一隐私机制的关键局限。&lt;/p>
&lt;h2 id="目标">目标&lt;/h2>
&lt;p>主要目标是在实际部署中实现&lt;strong>隐私保护的 LLM 推理&lt;/strong>，将敏感的用户提示智能地路由到边缘设备和云端之间。PRISM 旨在：&lt;/p>
&lt;ul>
&lt;li>避免对无害输入添加不必要的噪声&lt;/li>
&lt;li>保持敏感提示的语义连贯性&lt;/li>
&lt;li>在不损害效用的前提下降低延迟和能耗&lt;/li>
&lt;/ul>
&lt;h2 id="主要贡献">主要贡献&lt;/h2>
&lt;h3 id="语义敏感的执行路由">语义敏感的执行路由&lt;/h3>
&lt;ul>
&lt;li>边缘端的&lt;strong>软门控控制器&lt;/strong>利用上下文特征（例如命名实体、第一人称引用）评估实体级风险&lt;/li>
&lt;li>将提示路由到三条执行路径之一：
&lt;ul>
&lt;li>&lt;strong>仅边缘&lt;/strong>：用于高风险提示&lt;/li>
&lt;li>&lt;strong>仅云端&lt;/strong>：用于低风险提示&lt;/li>
&lt;li>&lt;strong>云-边协作&lt;/strong>：用于中等敏感度提示&lt;/li>
&lt;/ul>
&lt;/li>
&lt;/ul>
&lt;h3 id="自适应两层-local-differential-privacy-ldp">自适应两层 Local Differential Privacy (LDP)&lt;/h3>
&lt;ul>
&lt;li>每个敏感实体通过以下方式进行混淆：
&lt;ul>
&lt;li>类别级扰动（例如掩蔽&amp;quot;诊断&amp;quot;）&lt;/li>
&lt;li>值级扰动（例如将&amp;quot;HIV&amp;quot;替换为&amp;quot;Flu&amp;quot;）&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>隐私预算分配由敏感度权重模型引导，确保&lt;strong>细粒度保护且不造成语义崩塌&lt;/strong>&lt;/li>
&lt;/ul>
&lt;h3 id="语义草图协作协议">语义草图协作协议&lt;/h3>
&lt;ul>
&lt;li>带噪声的提示在云端处理，生成&lt;strong>语义草图&lt;/strong>（例如高层次的抽象回复）&lt;/li>
&lt;li>边缘端的 &lt;strong>Small Language Model (SLM)&lt;/strong> 利用原始上下文精化这些草图&lt;/li>
&lt;li>在&lt;strong>强隐私约束下实现高效用回复&lt;/strong>&lt;/li>
&lt;/ul>
&lt;h2 id="结果与洞察">结果与洞察&lt;/h2>
&lt;ul>
&lt;li>PRISM 相比 Uniform 和 Selective LDP 等基线方法，实现了&lt;strong>最高 3 倍的延迟降低&lt;/strong>和 &lt;strong>2.5 倍的能耗降低&lt;/strong>&lt;/li>
&lt;li>在强隐私预算下提供&lt;strong>更高的 LLM-Judge 评分（最高 7.2）&lt;/strong>&lt;/li>
&lt;li>在效用和效率方面均优于现有最先进方法（例如 Split-and-Denoise、DP-Forward）&lt;/li>
&lt;li>在 &lt;strong>8 种不同模型组合&lt;/strong>（例如 GPT-4o + StableLM）上表现稳健&lt;/li>
&lt;/ul>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Method&lt;/th>
&lt;th>Ct.(s)&lt;/th>
&lt;th>Ec.(J)&lt;/th>
&lt;th>IQ.&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>PRISM&lt;/td>
&lt;td>7.92&lt;/td>
&lt;td>687.2&lt;/td>
&lt;td>6.88&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Uniform LDP&lt;/td>
&lt;td>20.56&lt;/td>
&lt;td>1707.6&lt;/td>
&lt;td>5.72&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Selective LDP&lt;/td>
&lt;td>21.22&lt;/td>
&lt;td>1770.8&lt;/td>
&lt;td>5.94&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Edge-Only&lt;/td>
&lt;td>17.84&lt;/td>
&lt;td>1573.9&lt;/td>
&lt;td>5.09&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Cloud-Only&lt;/td>
&lt;td>&lt;strong>5.13&lt;/strong>&lt;/td>
&lt;td>&lt;strong>296.3&lt;/strong>&lt;/td>
&lt;td>&lt;strong>8.14&lt;/strong>&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;h2 id="更广泛的影响">更广泛的影响&lt;/h2>
&lt;p>PRISM 为&lt;strong>医疗、金融和个人助理&lt;/strong>等敏感领域提供了&lt;strong>选择性隐私保护推理&lt;/strong>，为以下方向铺平了道路：&lt;/p>
&lt;ul>
&lt;li>在&lt;strong>隐私关键环境&lt;/strong>中负责任地部署 LLM&lt;/li>
&lt;li>降低&lt;strong>云-边基础设施&lt;/strong>的能耗成本&lt;/li>
&lt;li>弥合&lt;strong>隐私与推理质量&lt;/strong>之间的权衡&lt;/li>
&lt;/ul></description></item><item><title>RL-Enhanced Disturbance-Aware MPC for Robust UAV Trajectory Tracking</title><link>https://junfei-z.github.io/zh/research/rl-enhanced-disturbance-aware-mpc-for-robust-uav-trajectory-tracking/</link><pubDate>Wed, 07 May 2025 00:00:00 +0000</pubDate><guid>https://junfei-z.github.io/zh/research/rl-enhanced-disturbance-aware-mpc-for-robust-uav-trajectory-tracking/</guid><description>&lt;a href="https://junfei-z.github.io/uav_control.pdf" target="_blank">
&lt;img src="https://img.shields.io/badge/View%20Full%20Paper-PDF-red?logo=adobeacrobatreader&amp;logoColor=white" alt="PDF">
&lt;/a>
&lt;p>[已被 IEEE SMC 2025 录用] — 即将发表&lt;/p>
&lt;p>本研究提出了 &lt;strong>ROAM&lt;/strong>，一种新颖的 RL 增强、扰动感知的 MPC 框架，用于不确定和动态环境中的&lt;strong>精确 UAV 轨迹跟踪&lt;/strong>。该方法结合了 MPC 的预测优势、reinforcement learning (RL) 的快速响应能力以及自适应 sliding mode observer (SMO) 的鲁棒性。&lt;/p>
&lt;h2 id="问题与动机">问题与动机&lt;/h2>
&lt;p>使用 MPC 的传统 UAV 控制器在&lt;strong>模型失配&lt;/strong>、&lt;strong>风扰动&lt;/strong>和&lt;strong>计算延迟&lt;/strong>下表现不佳，导致残余跟踪误差和收敛缓慢。本工作通过两项创新解决这些挑战：&lt;/p>
&lt;ul>
&lt;li>&lt;strong>离线训练的 RL 热启动策略&lt;/strong>以加速 MPC 收敛&lt;/li>
&lt;li>&lt;strong>Adaptive Super-Twisting Sliding Mode Observer (AST-SMO)&lt;/strong> 以估计和抑制实时扰动&lt;/li>
&lt;/ul>
&lt;h2 id="技术贡献">技术贡献&lt;/h2>
&lt;h3 id="1-基于-rl-的热启动">1. 基于 RL 的热启动&lt;/h3>
&lt;ul>
&lt;li>通过在专家 MPC 轨迹上进行模仿学习，训练了一个&lt;strong>方向条件策略&lt;/strong>。&lt;/li>
&lt;li>在实时控制中，它为 MPC 求解器提供&lt;strong>与轨迹一致的初始猜测&lt;/strong>，将早期跟踪误差降低了 &lt;strong>16.9%&lt;/strong>，计算时间减少了 &lt;strong>38.7%&lt;/strong>。&lt;/li>
&lt;/ul>
&lt;h3 id="2-用于扰动估计的-ast-smo">2. 用于扰动估计的 AST-SMO&lt;/h3>
&lt;ul>
&lt;li>SMO 使用平滑双曲函数实时估计外部扰动，以避免抖振。&lt;/li>
&lt;li>自适应增益调节机制动态调整灵敏度以实现更好的收敛。&lt;/li>
&lt;/ul>
&lt;h3 id="3-扰动感知-mpc">3. 扰动感知 MPC&lt;/h3>
&lt;ul>
&lt;li>MPC 被重新构建以纳入来自 AST-SMO 的实时估计：
\[
x_{k+1} = Ax_k + Bu_k + E(\hat{d}_k)
\]&lt;/li>
&lt;li>目标：最小化跟踪误差和控制能耗，同时维持系统约束。&lt;/li>
&lt;/ul>
&lt;h2 id="仿真结果">仿真结果&lt;/h2>
&lt;ul>
&lt;li>在正弦和噪声扰动下的 12 自由度四旋翼模型上进行了评估。&lt;/li>
&lt;li>ROAM 实现了：
&lt;ul>
&lt;li>早期跟踪精度提升 16.9%&lt;/li>
&lt;li>计算时间减少 38.7%&lt;/li>
&lt;li>在强外部扰动下相比经典 MPC 具有更优的轨迹跟随性能&lt;/li>
&lt;/ul>
&lt;/li>
&lt;/ul>
&lt;h2 id="结论">结论&lt;/h2>
&lt;p>ROAM 表明，&lt;strong>RL、观测器与 MPC 的深度集成&lt;/strong>可产生具有更快收敛速度、更好稳定性和更高韧性的控制系统。其轻量化和模块化设计使其非常适合在嵌入式 UAV 平台上进行&lt;strong>实时部署&lt;/strong>。&lt;/p>
&lt;!-- [Hugo Blox Builder](https://hugoblox.com) is designed to give technical content creators a seamless experience. You can focus on the content and the Hugo Blox Builder which this template is built upon handles the rest.
**Embed videos, podcasts, code, LaTeX math, and even test students!**
On this page, you'll find some examples of the types of technical content that can be rendered with Hugo Blox.
## Video
Teach your course by sharing videos with your students. Choose from one of the following approaches:
**Youtube**:
{{&lt; youtube w7Ft2ymGmfc >}}
**Bilibili**:
{{&lt; bilibili id="BV1WV4y1r7DF" >}}
**Video file**
Videos may be added to a page by either placing them in your `assets/media/` media library or in your [page's folder](https://gohugo.io/content-management/page-bundles/), and then embedding them with the _video_ shortcode:
{{&lt; video src="my_video.mp4" controls="yes" >}}
## Podcast
You can add a podcast or music to a page by placing the MP3 file in the page's folder or the media library folder and then embedding the audio on your page with the _audio_ shortcode:
{{&lt; audio src="ambient-piano.mp3" >}}
Try it out:
&lt;audio controls >
&lt;source src="https://junfei-z.github.io/zh/research/rl-enhanced-disturbance-aware-mpc-for-robust-uav-trajectory-tracking/ambient-piano.mp3" type="audio/mpeg">
&lt;/audio>
## Test students
Provide a simple yet fun self-assessment by revealing the solutions to challenges with the `spoiler` shortcode:
```markdown
{{&lt; spoiler text="👉 Click to view the solution" >}}
You found me!
{{&lt; /spoiler >}}
```
renders as
&lt;details class="spoiler " id="spoiler-2">
&lt;summary class="cursor-pointer">👉 Click to view the solution&lt;/summary>
&lt;div class="rounded-lg bg-neutral-50 dark:bg-neutral-800 p-2">
You found me 🎉
&lt;/div>
&lt;/details>
## Math
Hugo Blox Builder supports a Markdown extension for $\LaTeX$ math. You can enable this feature by toggling the `math` option in your `config/_default/params.yaml` file.
To render _inline_ or _block_ math, wrap your LaTeX math with `{{&lt; math >}}$...${{&lt; /math >}}` or `{{&lt; math >}}$$...$${{&lt; /math >}}`, respectively.
&lt;div class="flex px-4 py-3 mb-6 rounded-md bg-primary-100 dark:bg-primary-900">
&lt;span class="pr-3 pt-1 text-primary-600 dark:text-primary-300">
&lt;svg height="24" xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24">&lt;path fill="none" stroke="currentColor" stroke-linecap="round" stroke-linejoin="round" stroke-width="1.5" d="m11.25 11.25l.041-.02a.75.75 0 0 1 1.063.852l-.708 2.836a.75.75 0 0 0 1.063.853l.041-.021M21 12a9 9 0 1 1-18 0a9 9 0 0 1 18 0m-9-3.75h.008v.008H12z"/>&lt;/svg>
&lt;/span>
&lt;span class="dark:text-neutral-300">We wrap the LaTeX math in the Hugo Blox &lt;em>math&lt;/em> shortcode to prevent Hugo rendering our math as Markdown.&lt;/span>
&lt;/div>
Example **math block**:
```latex
{{&lt; math >}}
$$
\gamma_{n} = \frac{ \left | \left (\mathbf x_{n} - \mathbf x_{n-1} \right )^T \left [\nabla F (\mathbf x_{n}) - \nabla F (\mathbf x_{n-1}) \right ] \right |}{\left \|\nabla F(\mathbf{x}_{n}) - \nabla F(\mathbf{x}_{n-1}) \right \|^2}
$$
{{&lt; /math >}}
```
renders as
$$\gamma_{n} = \frac{ \left | \left (\mathbf x_{n} - \mathbf x_{n-1} \right )^T \left [\nabla F (\mathbf x_{n}) - \nabla F (\mathbf x_{n-1}) \right ] \right |}{\left \|\nabla F(\mathbf{x}_{n}) - \nabla F(\mathbf{x}_{n-1}) \right \|^2}$$
Example **inline math** `{{&lt; math >}}$\nabla F(\mathbf{x}_{n})${{&lt; /math >}}` renders as $\nabla F(\mathbf{x}_{n})$
.
Example **multi-line math** using the math linebreak (`\\`):
```latex
{{&lt; math >}}
$$f(k;p_{0}^{*}) = \begin{cases}p_{0}^{*} &amp; \text{if }k=1, \\
1-p_{0}^{*} &amp; \text{if }k=0.\end{cases}$$
{{&lt; /math >}}
```
renders as
$$
f(k;p_{0}^{*}) = \begin{cases}p_{0}^{*} &amp; \text{if }k=1, \\
1-p_{0}^{*} &amp; \text{if }k=0.\end{cases}
$$
## Code
Hugo Blox Builder utilises Hugo's Markdown extension for highlighting code syntax. The code theme can be selected in the `config/_default/params.yaml` file.
```python
import pandas as pd
data = pd.read_csv("data.csv")
data.head()
```
renders as
```python
import pandas as pd
data = pd.read_csv("data.csv")
data.head()
```
## Inline Images
```go
{{&lt; icon name="python" >}} Python
```
renders as
&lt;span class="inline-block pr-1">
&lt;svg style="height: 1em; transform: translateY(0.1em);" xmlns="http://www.w3.org/2000/svg" height="1em" viewBox="0 0 448 512" fill="currentColor">&lt;path d="M439.8 200.5c-7.7-30.9-22.3-54.2-53.4-54.2h-40.1v47.4c0 36.8-31.2 67.8-66.8 67.8H172.7c-29.2 0-53.4 25-53.4 54.3v101.8c0 29 25.2 46 53.4 54.3 33.8 9.9 66.3 11.7 106.8 0 26.9-7.8 53.4-23.5 53.4-54.3v-40.7H226.2v-13.6h160.2c31.1 0 42.6-21.7 53.4-54.2 11.2-33.5 10.7-65.7 0-108.6zM286.2 404c11.1 0 20.1 9.1 20.1 20.3 0 11.3-9 20.4-20.1 20.4-11 0-20.1-9.2-20.1-20.4.1-11.3 9.1-20.3 20.1-20.3zM167.8 248.1h106.8c29.7 0 53.4-24.5 53.4-54.3V91.9c0-29-24.4-50.7-53.4-55.6-35.8-5.9-74.7-5.6-106.8.1-45.2 8-53.4 24.7-53.4 55.6v40.7h106.9v13.6h-147c-31.1 0-58.3 18.7-66.8 54.2-9.8 40.7-10.2 66.1 0 108.6 7.6 31.6 25.7 54.2 56.8 54.2H101v-48.8c0-35.3 30.5-66.4 66.8-66.4zm-6.7-142.6c-11.1 0-20.1-9.1-20.1-20.3.1-11.3 9-20.4 20.1-20.4 11 0 20.1 9.2 20.1 20.4s-9 20.3-20.1 20.3z"/>&lt;/svg>
&lt;/span> Python
## Did you find this page helpful? Consider sharing it 🙌 --></description></item><item><title>Can Large Language Models Credibly Stand in for Humans in Game-Theoretic Experiments?</title><link>https://junfei-z.github.io/zh/research/can-large-language-models-credibly-stand-in-for-humans-in-game-theoretic-experiments/</link><pubDate>Thu, 17 Apr 2025 00:00:00 +0000</pubDate><guid>https://junfei-z.github.io/zh/research/can-large-language-models-credibly-stand-in-for-humans-in-game-theoretic-experiments/</guid><description>&lt;p>本研究探讨了使用 Large Language Models (LLMs) 作为行为博弈论实验中&lt;strong>人类参与者代理&lt;/strong>的可行性。我们评估了四个 LLM——GPT-4o、Llama-3.3-70B-Instruct、Llama-3.3-8B-Instruct 和 DeepSeek-R1，涵盖&lt;strong>三个经典博弈&lt;/strong>：&lt;strong>Prisoner’s Dilemma&lt;/strong>、&lt;strong>Ultimatum Game&lt;/strong> 和 &lt;strong>Public Goods Game&lt;/strong>。&lt;/p>
&lt;h2 id="研究目标">研究目标&lt;/h2>
&lt;ul>
&lt;li>评估 LLM 相对于人类规范的&lt;strong>行为一致性&lt;/strong>、&lt;strong>角色一致性&lt;/strong>和&lt;strong>策略适应性&lt;/strong>。&lt;/li>
&lt;li>设计一个**模块化多智能体框架（PRIME-Router）**以提高一致性和适应性。&lt;/li>
&lt;li>使用&lt;strong>基于 MBTI 的角色提示&lt;/strong>对 LLM 行为进行基准测试：Diplomat、Analyst、Sentinel、Explorer。&lt;/li>
&lt;/ul>
&lt;h2 id="核心贡献">核心贡献&lt;/h2>
&lt;h3 id="1-经典博弈中的行为评估">1. 经典博弈中的行为评估&lt;/h3>
&lt;p>使用三个新指标对 LLM 进行了与人类行为的对标：&lt;/p>
&lt;ul>
&lt;li>&lt;strong>BAM (Behavioral Alignment Measure)&lt;/strong>：与人类行为分布的相似度&lt;/li>
&lt;li>&lt;strong>PCI (Persona Consistency Index)&lt;/strong>：对提示的社会角色的遵循程度&lt;/li>
&lt;li>&lt;strong>ASP (Adaptive Strategic Profile)&lt;/strong>：对不断变化的博弈情境的响应能力&lt;/li>
&lt;/ul>
&lt;p>主要发现：&lt;/p>
&lt;ul>
&lt;li>大多数 LLM 表现出&lt;strong>较高的初始 BAM&lt;/strong>，但在重复博弈中的&lt;strong>适应性一致性&lt;/strong>方面表现不佳。&lt;/li>
&lt;li>GPT-4o 和 LLaMA-3.3-70B 在单次博弈中展现了&lt;strong>优秀的角色一致性&lt;/strong>。&lt;/li>
&lt;/ul>
&lt;h3 id="2-prime-router-框架">2. PRIME-Router 框架&lt;/h3>
&lt;p>为克服适应性和一致性的局限，我们提出了 &lt;strong>PRIME-Router&lt;/strong>，一种模块化 MoE 风格的架构：&lt;/p>
&lt;ul>
&lt;li>生成&lt;strong>专业化子角色&lt;/strong>（例如 Empathy Enforcer、Strategic Planner）&lt;/li>
&lt;li>根据经验性能为每个子角色分配&lt;strong>最合适的 LLM&lt;/strong>&lt;/li>
&lt;li>通过&lt;strong>协作模式&lt;/strong>（例如 star、debate、chain）聚合多智能体输出&lt;/li>
&lt;/ul>
&lt;p>PRIME-Router 的提升效果：&lt;/p>
&lt;ul>
&lt;li>&lt;strong>PCI&lt;/strong> 最高提升 &lt;strong>0.23&lt;/strong>&lt;/li>
&lt;li>&lt;strong>ASP&lt;/strong> 最高提升 &lt;strong>0.32&lt;/strong>
（在重复博弈中）。&lt;/li>
&lt;/ul>
&lt;h3 id="3-启示与展望">3. 启示与展望&lt;/h3>
&lt;ul>
&lt;li>LLM 能够&lt;strong>可信地模拟类人行为&lt;/strong>，但&lt;strong>策略深度&lt;/strong>和&lt;strong>长期角色保真度&lt;/strong>仍是挑战。&lt;/li>
&lt;li>PRIME-Router 为&lt;strong>社会科学实验&lt;/strong>、&lt;strong>政策建模&lt;/strong>和&lt;strong>在线平台模拟&lt;/strong>中的&lt;strong>高性价比 AI 智能体&lt;/strong>铺平了道路。&lt;/li>
&lt;/ul>
&lt;h2 id="结论">结论&lt;/h2>
&lt;p>本研究揭示了 LLM 在行为博弈模拟中的潜力与局限。像 PRIME-Router 这样的结构化多智能体设计显著增强了真实性，为实验社会科学中的&lt;strong>AI 驱动人类建模&lt;/strong>提供了新范式。&lt;/p>
&lt;p>[AAAI 2026 投稿] — 审稿中&lt;/p></description></item><item><title>Minimizing Maximum Age of Service in Virtualized Green IoT Networks</title><link>https://junfei-z.github.io/zh/research/minimizing-maximum-age-of-service-in-virtualized-green-iot-networks/</link><pubDate>Sat, 07 Dec 2024 00:00:00 +0000</pubDate><guid>https://junfei-z.github.io/zh/research/minimizing-maximum-age-of-service-in-virtualized-green-iot-networks/</guid><description>&lt;p>本项目解决了在太阳能驱动的绿色 IoT 网络中嵌入和调度应用的挑战，目标是最小化&lt;strong>最大 Age of Service (AoS)&lt;/strong> — 一个表示数据生成到服务完成之间延迟的新鲜度指标。&lt;/p>
&lt;h2 id="目标">目标&lt;/h2>
&lt;p>本研究聚焦于由&lt;strong>可再生能源&lt;/strong>（太阳能）驱动的虚拟化、具备计算能力的 IoT 基础设施。应用被建模为包含 &lt;strong>Virtual Network Functions (VNFs)&lt;/strong> 的 &lt;strong>Directed Acyclic Graphs (DAGs)&lt;/strong>，需要在波动的能量和计算约束下执行。&lt;/p>
&lt;h2 id="主要贡献">主要贡献&lt;/h2>
&lt;h3 id="mixed-integer-linear-programming-milp-建模">Mixed Integer Linear Programming (MILP) 建模&lt;/h3>
&lt;ul>
&lt;li>提出了&lt;strong>首个 MILP 模型&lt;/strong>，联合优化：
&lt;ul>
&lt;li>设备选择与采样时间&lt;/li>
&lt;li>DAG 请求嵌入决策&lt;/li>
&lt;li>设备、网关和服务器的能耗&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>目标：最小化所有 DAG 请求的&lt;strong>最大 AoS&lt;/strong>。&lt;/li>
&lt;/ul>
&lt;h3 id="启发式与预测控制方案">启发式与预测控制方案&lt;/h3>
&lt;ul>
&lt;li>开发了 &lt;strong>GreedyOL&lt;/strong>，一种基于当前 AoS 嵌入 DAG 的快速启发式算法。&lt;/li>
&lt;li>提出了 &lt;strong>RHCOP&lt;/strong>，一种 &lt;strong>Receding Horizon Control Optimization&lt;/strong> 框架：
&lt;ul>
&lt;li>利用 &lt;strong>Gaussian Mixture Models (GMMs)&lt;/strong> 预测太阳能到达量和无线信道增益。&lt;/li>
&lt;li>仅使用因果（非未来）信息实现实时调度。&lt;/li>
&lt;/ul>
&lt;/li>
&lt;/ul>
&lt;h3 id="结果与洞察">结果与洞察&lt;/h3>
&lt;ul>
&lt;li>RHCOP 实现了最优 MILP 的 &lt;strong>1.07 倍&lt;/strong> min-max AoS，GreedyOL 为 &lt;strong>1.13 倍&lt;/strong>。&lt;/li>
&lt;li>更多的网关和服务器由于增强的冗余性和灵活性而降低了 AoS。&lt;/li>
&lt;li>&lt;strong>VNF-C&lt;/strong>（采集）和 &lt;strong>VNF-P&lt;/strong>（处理）数量相等时可获得最优新鲜度。&lt;/li>
&lt;/ul>
&lt;h2 id="更广泛的影响">更广泛的影响&lt;/h2>
&lt;p>所提出的系统为&lt;strong>能耗感知、延迟敏感的 IoT 应用&lt;/strong>奠定了基础，尤其适用于&lt;strong>偏远或能源受限的环境&lt;/strong>。研究结果揭示了&lt;strong>计算新鲜度&lt;/strong>、&lt;strong>资源分配&lt;/strong>与&lt;strong>绿色网络部署&lt;/strong>策略之间的权衡关系。&lt;/p>
&lt;p>[IEEE Transactions on Services Computing 投稿] — 即将发表&lt;/p></description></item><item><title>Task Offloading and Approximate Computing in Solar Powered IoT Networks</title><link>https://junfei-z.github.io/zh/research/task-offloading-and-approximate-computing-in-solar-powered-iot-networks/</link><pubDate>Sun, 07 Jan 2024 00:00:00 +0000</pubDate><guid>https://junfei-z.github.io/zh/research/task-offloading-and-approximate-computing-in-solar-powered-iot-networks/</guid><description>&lt;p>本研究提出了一种新颖的框架，通过&lt;strong>任务卸载和近似计算&lt;/strong>来最小化太阳能驱动 IoT 网络的&lt;strong>总能耗&lt;/strong>。设备可以选择本地执行（精确或近似）或将任务卸载到太阳能驱动的边缘服务器。&lt;/p>
&lt;h2 id="核心目标">核心目标&lt;/h2>
&lt;ul>
&lt;li>在可容忍误差的情况下，通过允许近似任务执行来&lt;strong>降低能耗&lt;/strong>。&lt;/li>
&lt;li>&lt;strong>利用 Digital Twin (DT)&lt;/strong> 估计未来的能量可用性和信道条件。&lt;/li>
&lt;li>&lt;strong>优化卸载决策&lt;/strong>以及跨时隙和信道的资源分配。&lt;/li>
&lt;/ul>
&lt;h2 id="技术亮点">技术亮点&lt;/h2>
&lt;h3 id="milp-建模">MILP 建模&lt;/h3>
&lt;ul>
&lt;li>设计了&lt;strong>首个 MILP&lt;/strong>，联合优化：
&lt;ul>
&lt;li>任务卸载决策&lt;/li>
&lt;li>近似与精确执行&lt;/li>
&lt;li>信道分配&lt;/li>
&lt;li>虚拟机（VM）分配&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>捕获了能量到达、CPU 周期、近似误差界和 VM 容量等约束条件。&lt;/li>
&lt;/ul>
&lt;h3 id="dt-辅助的滑动窗口控制-dt-rhc">DT 辅助的滑动窗口控制 (DT-RHC)&lt;/h3>
&lt;ul>
&lt;li>引入了基于 &lt;strong>DT 的控制算法&lt;/strong>，使用：
&lt;ul>
&lt;li>&lt;strong>Gaussian Mixture Models (GMMs)&lt;/strong> 预测能量和信道增益&lt;/li>
&lt;li>滑动窗口 MILP 优化实现动态调度&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>仅使用&lt;strong>因果（历史）数据&lt;/strong>即可实现 MILP 最优值 &lt;strong>1.62 倍&lt;/strong>以内的能耗&lt;/li>
&lt;/ul>
&lt;h3 id="结果与评估">结果与评估&lt;/h3>
&lt;ul>
&lt;li>DT-RHC 在以下指标上显著优于随机策略：
&lt;ul>
&lt;li>能耗与设备数量的关系&lt;/li>
&lt;li>近似比率的影响&lt;/li>
&lt;li>扩展时间范围内的任务完成率&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>仿真在 100×100 m² 部署上使用 Python + Gurobi 进行，采用真实的太阳能输入和无线模型。&lt;/li>
&lt;/ul>
&lt;h2 id="结论">结论&lt;/h2>
&lt;p>本研究证明了在&lt;strong>可再生能源驱动的 IoT 环境&lt;/strong>中集成&lt;strong>近似计算和智能卸载&lt;/strong>的可行性。它为未来的&lt;strong>分布式优化和自适应能耗感知网络控制&lt;/strong>提供了坚实基础。&lt;/p>
&lt;p>&lt;a href="https://doi.org/10.1109/LNET.2023.3328893">IEEE Paper DOI: 10.1109/LNET.2023.3328893&lt;/a>&lt;/p></description></item></channel></rss>