智快网
快讯 行业 产业 汽车 科技 AI+ 热点

卡帕西“大模型议会”新玩法:四大AI匿名互评,谁是最强引热议

2025-11-25来源:快讯编辑:瑞雪

编程界又迎来一项创新成果——知名技术专家卡帕西推出了一款名为“大模型议会”(LLM Council)的Web应用。这款应用虽然外观与常见的聊天机器人界面相似,但背后却藏着独特的运行机制:当用户提出问题后,系统会借助OpenRouter同时唤醒多个大模型,让它们共同参与问题解答。

这款应用的流程设计颇具巧思,主要分为三个步骤。第一步是“群策群力”,系统会同时调用GPT-5.1、Gemini 3 Pro Preview、Claude Sonnet 4.5和Grok-4等多个大模型,让它们针对同一问题各自生成回答,并将这些回答以标签视图的形式呈现给用户,方便对比查看。第二步是“匿名互评”,所有模型的回答会被匿名处理后分发给彼此,每个模型需要根据回答的准确性和洞察力进行评分,并附上详细的评价理由,避免因模型身份产生偏见。第三步是“主席汇总”,系统会指定一个主席模型,将所有模型的回答和评分进行整合,最终生成一个综合答案反馈给用户。

在实际测试中,卡帕西发现了一些有趣的现象。例如,当多个模型共同评价彼此的回答时,GPT-5.1的答案被一致认为最具洞见,Claude的回答则被认为最弱,Gemini 3和Grok-4的表现处于中间水平。不过,卡帕西个人并不完全认同这一结果:他认为GPT-5.1的回答虽然内容丰富,但结构不够紧凑;Gemini 3的答案更简洁凝练,信息处理更到位;而Claude的回答虽然简略,但也有其独特之处。更令人意外的是,模型们在互评时很少表现出明显偏见,甚至会主动承认自己的答案不如其他模型。

这一项目在GitHub上公开后,迅速吸引了大量关注,目前已获得1.8k颗星。有网友认为,这种模型互评的模式或许能成为一种新的“自动基准测试”,为评估大模型性能提供全新思路;畅销书《Python机器学习》的作者也对该思路表示看好。卡帕西表示,虽然模型自评的结果可能与人类主观感受存在差异,但这种多模型协作的方式无疑为大模型的应用开辟了新的可能性,未来或许会成为LLM产品的重要发展方向。

千问App公测一周下载量破千万,阿里AI布局再掀“中国冲击波”
东方证券指出,阿里通过千问APP加大AI应用布局力度,看好AI应用布局完善后阿里的全栈AI优势强化,且千问APP可与集团其他生活服务双向赋能,实现流量共享与收入提速,看好千问APP在阿里业务内的多方向增长…

2025-11-25

谷歌推进Aluminium OS计划:安卓与ChromeOS融合打造统一桌面新生态
IT之家 11 月 25 日消息,Android Authority 今日报道称,谷歌正推进一项代号为“AluminiumOS”的新系统计划,旨在将 ChromeOS 与 Android 合并为统一的桌面平…

2025-11-25

华为MateBook Fold非凡大师瑞红新色登场 美学设计与智慧交互共绽光彩
华为MateBook Fold 非凡大师作为鸿蒙电脑家族的旗舰机型,在鸿蒙6的加持下,结合折叠屏的多屏交互优势,将为用户带来更高效的办公体验。 在即将于11月25日举办的发布会上,不妨大胆猜测,在Harmon…

2025-11-25

联想超级互联3.0上线:支持iPhone跨系统互联,多设备协作更高效
现在,联想电脑、平板及moto手机均可与iPhone实现跨系统互联,用户可在电脑端实时接收并查看来自iPhone的短信内容,完成文件互传等操作,显著提升多设备使用效率。 随着安卓、iOS与Windows三大平…

2025-11-25

真我新机RMX5121入网,或为16 Pro,影像电池等配置亮点多
此外,博主@数码闲聊站 爆料了一款新机的配置:“又摸到一台骁龙 8G5 中端性能机,娱乐兔跑分 330W+,6.78"±1.5KLTPS 大直屏,3D 超声波指纹,50Mp 大底主摄,硅电池比大更大,盲猜…

2025-11-25

苹果折叠屏iPhone Fold突破无折痕技术,2026年量产或掀行业新潮
11月24日,据供应链消息披露,苹果首款折叠屏手机iPhone Fold已攻克行业核心痛点,实现肉眼不可见的无折痕设计,成为业内首款真正解决折痕问题的折叠设备。目前该机已进入工程验证阶段,鸿海集团专属生产线已…

2025-11-25