我已经很多年没在线下玩过狼人杀了。

不是我不爱玩,是毕业之后凑齐 8 到 12 个人太难了:时间对不上、地点对不上、状态也对不上。狼人杀当然是社交游戏,但我真正念念不忘的,是只靠只言片语盘出真相的推理快感——以及人在桌上互相试探、互相带节奏、互相嘴硬的那股活气。

所以当我和焕东决定报名黑客松时,我们几乎是本能地想到了这个方向:做一个 AI 驱动的狼人杀。桌上除了我们俩,其他玩家全都是 AI。你随时随地开一局,能真的玩 10~20 分钟的完整对局;更有意思的是,你还能看大语言模型在高压博弈场景里赛博斗蛐蛐。

当时命题里有个词叫生命力。我一直觉得,如果一个模型被调教得足够好,它不只是能回答,而是会出现犹豫、试探、破防、甩锅、嘴硬、找补……你会在某个瞬间忘记它是程序,误以为它是一个在桌上活着的人。狼人杀刚好是最适合承载这种生命力的舞台。

我带着一个零技术背景的队友参赛

这次我们队伍就两个人:我和焕东。

焕东前阵子离职,对 AI 编程特别感兴趣,但他没有技术背景。更准确地说:我一开始就是想做个实验——**不懂代码的人,在 AI 的帮助下能做到什么程度?**我自己对 AI 写代码有不少心得,也很想把这些方法分享给他看看。

后来我们看到了这场黑客松,就干脆一起报名了。两天里,他帮我做了非常关键的几件事:

  • 接入 Minimax 的角色语音实时播放
  • 用 Minimax 生成了所有过场音效
  • 做黑客松 PPT、帮忙测试代码、一起头脑风暴新功能

我负责的则是整套产品的骨架:整体 UI + 游戏逻辑,以及大量决定“玩起来像不像”的细节打磨。

现在回头看,这个组合挺有意思:我负责把车造出来、把方向盘装稳;他负责让车有声音、有情绪、能被看见,还不停给我抛出各种有趣的心 Idea。

这两天最难的不是写代码,是让 AI 像人

两天时间做一个能跑的 demo 并不难,难的是做一个能让人愿意玩十几二十分钟、流程不乱、细节不粗糙的成品。

我遇到的最大难点有两个:

  1. 让 AI 真的像人在盘逻辑
    不是输出正确答案,而是在桌上承担一个身份、带着动机说话、在信息不完全的情况下做决策。
  2. 两天时间做完整成品,流程别乱套
    狼人杀的坑全在流程里:夜晚行动推进、白天发言轮次、投票结算、平票处理、技能限制、各种边界情况……如果只做一个能演示 30 秒的东西,你可以忽略这些;但只要用户真玩 10 分钟,这些坑会一个个跳出来。

此外,我们对 UI 的要求也蛮高。我们大概磨了三四个大版本:从现代 or 复古的风格选择,到玩家卡片/消息框/立绘/历史消息的布局,再到眨眼转场、中间过场字幕、旁白节奏这种细节。很多东西如果只看截图,你可能觉得就那样;但当它跑起来,节奏对了,它就会变成你愿意继续玩下去的那种体验。

我们还做了一堆“看起来不重要,但很想让你舒服”的小细节

除了把狼人杀主流程跑通,我这两天其实特别执着一些小细节:你在等 AI 的时候不要焦虑、当它还在生成内容时,先在消息框里丢一句 (正在组织语言…)

比如你在开局生成角色、等玩家入场的时候,我们没有让你对着一个转圈圈发呆,而是塞了个小小的 加载小游戏——你可以在那段时间里用鼠标/手指左右移动挡板接星星(接到加分,接到坏东西还会扣分+闪一下)

对话里提到“@3号”这种信息位会直接渲染成小标签,读起来更像在看真实对局记录。总之这些都不是核心功能,但我真的很想让你打开之后觉得:这个东西是被认真打磨过的,不是随便拼出来的 demo。


我们做的不是 AI + 游戏,而是让 AI 上桌

我们一开始就不想做套个身份发言的狼人杀。狼人杀里最迷人的东西,是人。所以我在设计时一直在想一件事:怎么让 AI 先像一个同桌的人,再像一个桌上的角色?

我把它拆成两层:

1) 先成为“虚拟玩家”(人格与场景)

线下狼人杀经常发生在同学、同事、朋友聚会,天然带着场外属性:怀旧、攀比、阴阳怪气、互怼、劝和……所以我们给局设置了很多社会场景,比如:

  • 同学聚会、年夜饭、婚礼酒席、业委会开会
  • 创业公司团建、电竞战队、密室逃脱
  • 机场延误、地铁末班车、博物馆夜班……

同一句“我觉得你不对”,在不同场景里会长出完全不同的语气和潜台词。它不只是回答,更像是在扮演一个具体的人。

2) 再成为“狼人杀身份”(有限信息与推理)

第二层是规则:每个 AI 只能拿到它该知道的信息,不能开天眼;它必须像真人一样靠推理补齐真相。在它眼里,人类玩家与其他 AI 是一视同仁的同桌——这才会出现真正的误判、摇摆、带节奏与反噬。

当这两层叠起来,局才会像真的。你会开始在意它的站边、它的动机、它的话术收益,而不是这个模型有没有按格式输出。


我想把“模型对比”做成一种娱乐

我做 AI 产品时经常要对比模型能力:网上吹得很猛的模型,有时候在真实交互里并不好用;而一些没那么火的模型,反而会在某些场景里突然惊艳。

狼人杀是一种很残酷的综合测评:要记上下文、要守规则、要在压力下自洽、要话术拟人、还要推理与站边。它不是跑分,也不是参数榜单,而是一张桌:谁更像人,谁更会玩,谁更容易露馅,一局就看出来了。

我们也遇到了一些反常识:比如我原本觉得 Gemini 3 Flash 的文本能力应该不错,但同样的提示词下,它的发言更浮夸,喜欢堆形容词,中文也不够自然。你把它放进狼人杀桌上,这些差异会被放大得非常明显。

名场面:一个单引号把 Kimi K2 送走了(真的)

黑客松最“拟人”的瞬间,有时候不是你设计出来的,而是你兜底兜出来的。

我记得现场在摆摊给游客体验的时候,有一个游客体验猹杀的时候,发现 Kimi K2 疑似因为 JSON 解析没处理好,轮到它发言时屏幕上只出现了一个:,然后就轮到下一个人了。当时我觉得有点尴尬,给用户体验还出 Bug 了。

Kimi 发言后其他 AI 当场就觉得它装高冷、不说人话,那一轮它就被投出去了。

更离谱的是:它遗言的时候又恢复正常了,还一本正经地说自己是故意的,想诈一诈其他人怎么说。

你说这是 bug 吗?是。
你说这像不像真人临场找补,把失误包装成战术?也像。

我们做的不是 AI 答题,是 AI 上桌哈哈哈。

BTW:这里真的很想放个截图,但是当时忘记了,贴一个类似的。


有人味儿到底是什么?我最喜欢的答案是:会喷人

很多产品会把像人理解成礼貌、圆滑、正确。但狼人杀不是客服系统,狼人杀是一张桌。

我最满意的一个设定,是让 DeepSeek 扮演一个暴躁老哥。效果好到离谱:其他模型一说废话,这个老哥就开始骂人,像一个真正在桌上被队友气到的人。

他有一句话我现在还记得(为了不影响阅读,我把部分词做了轻微处理):

“我真是服了,刚才那位狼队友的发言——我建议你晚上自己刀自己,别脏女巫的毒。你聊得跟 shi 一样,还在那猛踩我?你***睁眼看看谁跟你一边的”

这类“情绪化、打断、嘲讽、反击”的社交反馈,反而构成了狼人杀的真实质感:它不是为了脏话而脏话,而是为了让你相信——桌上真的坐着一个人


我最讨厌的一段:路演那天我只能当 PPT 选手

这次黑客松最戏剧性的十分钟,反而发生在路演现场。

现场竟然不能播放视频,也不能做产品演示,只能讲 PPT。更难受的是:评委其实没有发言的机会。我真的很希望他们能反问我一下,或者至少让我有一个演示的机会。

因为我们的产品不是一句话就能懂的——它必须玩一下才能体会。你不玩,你不知道眨眼转场的节奏、不知道旁白带来的沉浸、不知道口型跟随会让角色突然变得像在说话。你更不知道一局里会发生什么离谱的事情,比如那个单引号,比如那段暴躁老哥的破防。

那五分钟我觉得我讲得很差。别人可能会把“AI 狼人杀”当作一个无聊、普通、想当然的点子。但我们两天做出来的,是一个 UI 清爽精致、有人味儿、现场能玩十几二十分钟的完整游戏。

如果再给我一次机会,在不能演示的情况下,我会用更剧情化的 PPT:放更多 gif,把转场、口型、节奏感直接砸到观众眼睛里;再放一两个名场面台词,让人秒懂;

接下来我想把它做成“大模型竞技场”

现在我们的游戏已经上线了:wolf-cha.com

而且因为在场的很多学生观众对于我们如何实现一个这样的游戏很感兴趣,所以我还把项目也给开源了,大家可以直接在 GitHub 搜索 Wolfcha

接下来我想把它做成一个大模型竞技场:提供更高自由度的配置,甚至提供一个“无性格模型”,只让 AI 扮演狼人杀里的身份自由发挥,然后把评判权交给玩家——让玩家自己评判哪个模型玩得最好。

我希望你看完能记住两件事:

  1. 我们做这个游戏的初衷很简单:让你随时随地重新玩到狼人杀。
  2. 当你真的开始玩,你会发现:围观大模型在桌上斗蛐蛐,居然和围观真人一样好笑、一样上头。
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐