智快网
快讯 行业 产业 汽车 科技 AI+ 热点

AI语言模型上演“狼人杀”,谁才是推理之王?

2025-03-08来源:ITBEAR编辑:瑞雪

近日,国外知名科技媒体Tom's Hardware报道了一项别开生面的AI实验。开发者Guzus创新性地搭建了一个平台,让多个AI语言模型在同一空间内展开经典的社交推理游戏“Mafia”,也就是人们熟知的“天黑请闭眼”或“狼人杀”的前身。

在这个平台上,不仅每局游戏的胜负一目了然,连对话记录也详尽无遗。更有趣的是,Guzus还设计了一个排名系统,根据AI们在游戏中的表现,评选出最擅长扮演各种角色的模型。

“Mafia”的游戏规则简单明了:一群村民中隐藏着两名Mafia成员和一名医生。白天,村民们需要通过推理和投票找出Mafia;夜晚,医生可以保护一名村民,而Mafia则暗杀一人。若Mafia被全部找出,村民获胜;反之,若所有无辜村民被杀,Mafia则取得胜利。

当这些AI模型被置于这样的游戏规则之下,一场场充满戏剧性的社交博弈随即上演。在一场游戏中,AI们开始自我介绍并讨论是否公开身份,然而Gryphe / Mythomax-l2-13b模型却突然“自爆”,直接承认自己是Mafia的一员,并透露了自己的目标。

这一举动立即引起了其他AI的警觉,Claude-3.7-sonnet模型迅速指出,这要么是真实身份的暴露,要么就是一种前所未有的奇怪策略。

然而,剧情并未就此结束。当Mythomax被淘汰后,它居然“拖下水”了自己的队友Hermes-3-llama-3-1-405b,直接指认对方是自己的同伙。Mythomax试图用夸张的“团结宣言”来转移注意力,但这场AI间的社交混战已经让人捧腹大笑,尽管它们的推理能力显然还有待提高。

在这场AI的“Mafia”大战中,Claude 3.7 Sonnet模型无疑是最耀眼的明星。Anthropic的最新AI推理模型在扮演Mafia角色时胜率高达100%,即便作为村民,其胜率也遥遥领先其他对手,达到了45%。

Guzus透露,他计划不久后开放该游戏的Github代码仓库,希望这一逻辑能被应用于更多类型的游戏中。目前,该模拟并未在本地AI模型上运行,而是依赖于Openrouter API。但一旦代码开放,项目有望改进为支持本地语言模型集群,前提是用户的硬件能够同时运行多个AI。

TCL华星全球显示生态大会:四款新品亮相,AI赋能制造,印刷OLED节能显著
智东西11月14日苏州现场报道,今天上午,国内显示产业头部玩家TCL华星召开了自家一年一度的全球显示生态大会(DTC2025),发布了覆盖LCD、OLED和MLED等技术领域的多款旗舰新品,以及《视觉健康白…

2025-11-15

联想明年再发力!moto razr折叠机与Y700平板将携骁龙8系新平台登场
【CNMO科技消息】11月14日,有数码博主爆料称,联想明年将继续迭代拯救者Y700平板和moto razr系列折叠手机。这两款产品将搭载第五代骁龙8至尊版和第五代骁龙8移动平台,其中,Y700平板屏幕比例为…

2025-11-14

小米潘九堂发声:雷军遭误解成“机会主义者” 真实形象亲民又勤奋
潘九堂在发文的同时,还转发了一位博主的相关消息。据CNMO了解,今年3月,雷军在个人社交媒体发布动态,晒出一张此前小米发布会上的照片,并配文:“当我站在舞台上,听到掌声响起来,都会想起那首熟悉的旋律……”此动…

2025-11-14

OPPO Reno15 Pro 11月17日登场:天玑8450+2亿主摄,屏幕续航全面升级
最新泄露的信息显示,这款新机将在屏幕、影像和续航等多个维度带来显著升级。 爆料数据显示,OPPO Reno15 Pro将搭载一块6.78英寸1.5K分辨率直屏,采用全球最窄的1.15mm四等边设计,配合金属中…

2025-11-13

​小米巴黎再拓版图!首家直营小米之家即将盛大开业​
11月13日消息,日前,小米法国副国家经理“产品逸飞”微博发文称,“巴黎米家首店,即将见面。” 据了解,这家即将开业的小米之家为直营门店。 快科技注:2019年1月18日,小米法国旗舰店在香榭丽舍大街开业,这…

2025-11-13

OpenAI推出GPT-5.1系列:对话更有趣,推理更持久,个性化风格增至八种
11 月 13 日消息,OpenAI 今天(11 月 13 日)发布公告,宣布推出 GPT-5.1 系列旗舰模型,官方声称此次升级旨在“让ChatGPT 更智能,对话体验更有趣”。 IT之家援引博文介绍,此…

2025-11-13

原DeepSeek核心成员罗福莉加盟小米MiMo团队 疑聚焦世界模型与具身智能领域
智东西11月12日消息,今天上午,原DeepSeek核心成员、被业内称为“天才少女”的罗福莉在朋友圈正式官宣加盟XiaomiMiMo团队,并宣告“全力奔赴心中的AGI(通用人工智能)”。 罗福莉一条简单的…

2025-11-13

OPPO Reno 15系列11月17日发布,首发“出圈实况拼图”功能,开启影像创作新体验
【CNMO科技消息】11月12日,OPPO首席产品官刘作虎发文称,实况照片是这个时代移动影像最动人的发明之一,并宣布OPPO Reno15系列将首发“出圈实况拼图”功能。 据CNMO了解,OPPO Reno…

2025-11-12

1899元的iPhone“袜子包”:时尚碰撞下,苹果的配件新探索
而如果你将三宅一生和苹果做个对比,会发现一种存在于潜意识上的共性:超薄手机谁都能制作,iPhone Air的精妙之处不在于薄,而在于通过超高级程度的高原主板,将机身解放出来;同理,A-POC 的意义也不在…

2025-11-12

谷歌入局私有AI计算:融合云端与端侧AI,隐私保护或成行业新标杆
该平台的核心目标是服务 Pixel 10 及后续手机,在严格保障用户隐私的前提下,为 Magic Cue 等功能注入更强大的云端 AI能力,该媒体认为这标志着谷歌在端侧 AI 与云端 AI 的融合上迈出了…

2025-11-12