<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Game Theory | 占俊飞的个人主页</title><link>https://junfei-z.github.io/zh/tags/game-theory/</link><atom:link href="https://junfei-z.github.io/zh/tags/game-theory/index.xml" rel="self" type="application/rss+xml"/><description>Game Theory</description><generator>Hugo Blox Builder (https://hugoblox.com)</generator><language>zh-Hans</language><lastBuildDate>Wed, 21 May 2025 00:00:00 +0000</lastBuildDate><image><url>https://junfei-z.github.io/media/icon_hu70bcee51a3cd7a7338014254a2e0c844_1401285_512x512_fill_lanczos_center_3.png</url><title>Game Theory</title><link>https://junfei-z.github.io/zh/tags/game-theory/</link></image><item><title>演示文稿 - Can Large Language Models Credibly Stand in for Humans in Game-Theoretic Experiments?</title><link>https://junfei-z.github.io/zh/samples/1_dsp/</link><pubDate>Wed, 21 May 2025 00:00:00 +0000</pubDate><guid>https://junfei-z.github.io/zh/samples/1_dsp/</guid><description>&lt;p>评估 LLMs（如 GPT-4o、LLaMA-3.3）在经典博弈中的表现，包括 Prisoner&amp;rsquo;s Dilemma、Ultimatum Game 和 Public Goods Game。
我们提出了一种多智能体路由框架 PRIME-Router，可在重复交互中提升策略适应性和角色一致性。&lt;/p></description></item><item><title>Can Large Language Models Credibly Stand in for Humans in Game-Theoretic Experiments?</title><link>https://junfei-z.github.io/zh/research/can-large-language-models-credibly-stand-in-for-humans-in-game-theoretic-experiments/</link><pubDate>Thu, 17 Apr 2025 00:00:00 +0000</pubDate><guid>https://junfei-z.github.io/zh/research/can-large-language-models-credibly-stand-in-for-humans-in-game-theoretic-experiments/</guid><description>&lt;p>本研究探讨了使用 Large Language Models (LLMs) 作为行为博弈论实验中&lt;strong>人类参与者代理&lt;/strong>的可行性。我们评估了四个 LLM——GPT-4o、Llama-3.3-70B-Instruct、Llama-3.3-8B-Instruct 和 DeepSeek-R1，涵盖&lt;strong>三个经典博弈&lt;/strong>：&lt;strong>Prisoner’s Dilemma&lt;/strong>、&lt;strong>Ultimatum Game&lt;/strong> 和 &lt;strong>Public Goods Game&lt;/strong>。&lt;/p>
&lt;h2 id="研究目标">研究目标&lt;/h2>
&lt;ul>
&lt;li>评估 LLM 相对于人类规范的&lt;strong>行为一致性&lt;/strong>、&lt;strong>角色一致性&lt;/strong>和&lt;strong>策略适应性&lt;/strong>。&lt;/li>
&lt;li>设计一个**模块化多智能体框架（PRIME-Router）**以提高一致性和适应性。&lt;/li>
&lt;li>使用&lt;strong>基于 MBTI 的角色提示&lt;/strong>对 LLM 行为进行基准测试：Diplomat、Analyst、Sentinel、Explorer。&lt;/li>
&lt;/ul>
&lt;h2 id="核心贡献">核心贡献&lt;/h2>
&lt;h3 id="1-经典博弈中的行为评估">1. 经典博弈中的行为评估&lt;/h3>
&lt;p>使用三个新指标对 LLM 进行了与人类行为的对标：&lt;/p>
&lt;ul>
&lt;li>&lt;strong>BAM (Behavioral Alignment Measure)&lt;/strong>：与人类行为分布的相似度&lt;/li>
&lt;li>&lt;strong>PCI (Persona Consistency Index)&lt;/strong>：对提示的社会角色的遵循程度&lt;/li>
&lt;li>&lt;strong>ASP (Adaptive Strategic Profile)&lt;/strong>：对不断变化的博弈情境的响应能力&lt;/li>
&lt;/ul>
&lt;p>主要发现：&lt;/p>
&lt;ul>
&lt;li>大多数 LLM 表现出&lt;strong>较高的初始 BAM&lt;/strong>，但在重复博弈中的&lt;strong>适应性一致性&lt;/strong>方面表现不佳。&lt;/li>
&lt;li>GPT-4o 和 LLaMA-3.3-70B 在单次博弈中展现了&lt;strong>优秀的角色一致性&lt;/strong>。&lt;/li>
&lt;/ul>
&lt;h3 id="2-prime-router-框架">2. PRIME-Router 框架&lt;/h3>
&lt;p>为克服适应性和一致性的局限，我们提出了 &lt;strong>PRIME-Router&lt;/strong>，一种模块化 MoE 风格的架构：&lt;/p>
&lt;ul>
&lt;li>生成&lt;strong>专业化子角色&lt;/strong>（例如 Empathy Enforcer、Strategic Planner）&lt;/li>
&lt;li>根据经验性能为每个子角色分配&lt;strong>最合适的 LLM&lt;/strong>&lt;/li>
&lt;li>通过&lt;strong>协作模式&lt;/strong>（例如 star、debate、chain）聚合多智能体输出&lt;/li>
&lt;/ul>
&lt;p>PRIME-Router 的提升效果：&lt;/p>
&lt;ul>
&lt;li>&lt;strong>PCI&lt;/strong> 最高提升 &lt;strong>0.23&lt;/strong>&lt;/li>
&lt;li>&lt;strong>ASP&lt;/strong> 最高提升 &lt;strong>0.32&lt;/strong>
（在重复博弈中）。&lt;/li>
&lt;/ul>
&lt;h3 id="3-启示与展望">3. 启示与展望&lt;/h3>
&lt;ul>
&lt;li>LLM 能够&lt;strong>可信地模拟类人行为&lt;/strong>，但&lt;strong>策略深度&lt;/strong>和&lt;strong>长期角色保真度&lt;/strong>仍是挑战。&lt;/li>
&lt;li>PRIME-Router 为&lt;strong>社会科学实验&lt;/strong>、&lt;strong>政策建模&lt;/strong>和&lt;strong>在线平台模拟&lt;/strong>中的&lt;strong>高性价比 AI 智能体&lt;/strong>铺平了道路。&lt;/li>
&lt;/ul>
&lt;h2 id="结论">结论&lt;/h2>
&lt;p>本研究揭示了 LLM 在行为博弈模拟中的潜力与局限。像 PRIME-Router 这样的结构化多智能体设计显著增强了真实性，为实验社会科学中的&lt;strong>AI 驱动人类建模&lt;/strong>提供了新范式。&lt;/p>
&lt;p>[AAAI 2026 投稿] — 审稿中&lt;/p></description></item></channel></rss>