Can Large Language Models Credibly Stand in for Humans in Game-Theoretic Experiments?

Can Large Language Models Credibly Stand in for Humans in Game-Theoretic Experiments?

本研究探讨了使用 Large Language Models (LLMs) 作为行为博弈论实验中人类参与者代理的可行性。我们评估了四个 LLM——GPT-4o、Llama-3.3-70B-Instruct、Llama-3.3-8B-Instruct 和 DeepSeek-R1,涵盖三个经典博弈Prisoner’s DilemmaUltimatum GamePublic Goods Game

研究目标

  • 评估 LLM 相对于人类规范的行为一致性角色一致性策略适应性
  • 设计一个**模块化多智能体框架(PRIME-Router)**以提高一致性和适应性。
  • 使用基于 MBTI 的角色提示对 LLM 行为进行基准测试:Diplomat、Analyst、Sentinel、Explorer。

核心贡献

1. 经典博弈中的行为评估

使用三个新指标对 LLM 进行了与人类行为的对标:

  • BAM (Behavioral Alignment Measure):与人类行为分布的相似度
  • PCI (Persona Consistency Index):对提示的社会角色的遵循程度
  • ASP (Adaptive Strategic Profile):对不断变化的博弈情境的响应能力

主要发现:

  • 大多数 LLM 表现出较高的初始 BAM,但在重复博弈中的适应性一致性方面表现不佳。
  • GPT-4o 和 LLaMA-3.3-70B 在单次博弈中展现了优秀的角色一致性

2. PRIME-Router 框架

为克服适应性和一致性的局限,我们提出了 PRIME-Router,一种模块化 MoE 风格的架构:

  • 生成专业化子角色(例如 Empathy Enforcer、Strategic Planner)
  • 根据经验性能为每个子角色分配最合适的 LLM
  • 通过协作模式(例如 star、debate、chain)聚合多智能体输出

PRIME-Router 的提升效果:

  • PCI 最高提升 0.23
  • ASP 最高提升 0.32 (在重复博弈中)。

3. 启示与展望

  • LLM 能够可信地模拟类人行为,但策略深度长期角色保真度仍是挑战。
  • PRIME-Router 为社会科学实验政策建模在线平台模拟中的高性价比 AI 智能体铺平了道路。

结论

本研究揭示了 LLM 在行为博弈模拟中的潜力与局限。像 PRIME-Router 这样的结构化多智能体设计显著增强了真实性,为实验社会科学中的AI 驱动人类建模提供了新范式。

[AAAI 2026 投稿] — 审稿中