智快网
快讯 行业 产业 汽车 科技 AI+ 热点

卡帕西“大模型议会”新玩法:四大AI匿名互评,谁是最强引热议

2025-11-25来源:快讯编辑:瑞雪

编程界又迎来一项创新成果——知名技术专家卡帕西推出了一款名为“大模型议会”(LLM Council)的Web应用。这款应用虽然外观与常见的聊天机器人界面相似,但背后却藏着独特的运行机制:当用户提出问题后,系统会借助OpenRouter同时唤醒多个大模型,让它们共同参与问题解答。

这款应用的流程设计颇具巧思,主要分为三个步骤。第一步是“群策群力”,系统会同时调用GPT-5.1、Gemini 3 Pro Preview、Claude Sonnet 4.5和Grok-4等多个大模型,让它们针对同一问题各自生成回答,并将这些回答以标签视图的形式呈现给用户,方便对比查看。第二步是“匿名互评”,所有模型的回答会被匿名处理后分发给彼此,每个模型需要根据回答的准确性和洞察力进行评分,并附上详细的评价理由,避免因模型身份产生偏见。第三步是“主席汇总”,系统会指定一个主席模型,将所有模型的回答和评分进行整合,最终生成一个综合答案反馈给用户。

在实际测试中,卡帕西发现了一些有趣的现象。例如,当多个模型共同评价彼此的回答时,GPT-5.1的答案被一致认为最具洞见,Claude的回答则被认为最弱,Gemini 3和Grok-4的表现处于中间水平。不过,卡帕西个人并不完全认同这一结果:他认为GPT-5.1的回答虽然内容丰富,但结构不够紧凑;Gemini 3的答案更简洁凝练,信息处理更到位;而Claude的回答虽然简略,但也有其独特之处。更令人意外的是,模型们在互评时很少表现出明显偏见,甚至会主动承认自己的答案不如其他模型。

这一项目在GitHub上公开后,迅速吸引了大量关注,目前已获得1.8k颗星。有网友认为,这种模型互评的模式或许能成为一种新的“自动基准测试”,为评估大模型性能提供全新思路;畅销书《Python机器学习》的作者也对该思路表示看好。卡帕西表示,虽然模型自评的结果可能与人类主观感受存在差异,但这种多模型协作的方式无疑为大模型的应用开辟了新的可能性,未来或许会成为LLM产品的重要发展方向。

GPT - 5.2不眠不休奋战7天,300万行代码铸就Chrome级浏览器传奇
在此之前,我们熟悉的AI编程工具(比如早期的Copilot)的情况是:你写个函数头,它补全五行代码;你发个指令,它生成一个脚本。 用5行代码逼疯硅谷的澳洲放羊大叔,其实只做了一件事情,就是让AI不达目标不能…

2026-01-16

IDC 2025报告:OPPO第四季度逆势增长,全球市场表现强劲稳居前五
在中国市场,智能手机市场出货量约7,578万台,第四季度同比微降0.8%。OPPO 在中国市场的增长势能,带动了OPPO在全球市场的整体表现。中高端市场,截止2025年11月OPPO Reno系列在中国市…

2026-01-16

联发科天玑9500s登场:3nm制程全大核架构 性能影像网络全面升级
天玑9500s采用旗舰3nm制程和全大核架构,八核CPU包含1个主频3.73GHz的Cortex-X925超大核以及3个Cortex-X4超大核和4个Cortex-A720大核,配备同档出众的旗舰大容量高速…

2026-01-16

今日联发科重磅发布天玑8500与9500s芯片,红米Turbo 5 Max抢先搭载
天玑 8500 采用第二代全大核 CPU, 性能对比上代提升 7%。 IT之家注意到,在连接性方面,天玑 9500s 支持 5G 快省合一,搭载5G R17 调制解调器,支持四载波聚合,下行速率高达 7Gb…

2026-01-16

真我P4 Power 5G印度发布:超大电池+旁路充电 续航与便携性兼得
该机被定位为“电量为王”的旗舰机型,主打强悍电池性能。 续航方面,真我P4 Power5G单次充电可续航长达1.5天,并引入“旁路充电”技术。值得一提的是,官方还承诺该机的使用寿命可长达8年。 据CNMO了…

2026-01-16

三星Galaxy Z Flip7:以AI赋能折叠屏,斩获2025五星奖年度编辑推荐殊荣
经热点科技的资深编辑评审团决定,三星Galaxy Z Flip7以AI重塑小折叠体验,4.1英寸智能外屏在Galaxy AI驱动下,化身随时可用的交互窗口,实现从“形态新奇”到“体验成熟”的跨越,重新定义了…

2026-01-15

中小100ETF华夏159902开盘平稳,重仓股涨跌互现立讯比亚迪微跌
来源:新浪基金∞工作室 1月15日,中小100ETF华夏(159902)开盘涨0.00%,报4.648元。中小100ETF华夏(159902)重仓股方面,立讯精密开盘跌0.45%,比亚迪跌0.02%,北方华创…

2026-01-15

科创创业人工智能ETF工银半日跌2.54%,重仓股表现分化润泽科技领跌
来源:新浪基金∞工作室 1月15日,截止午间收盘,科创创业人工智能ETF工银(588430)跌2.54%,报1.153元,成交额2304.77万元。科创创业人工智能ETF工银(588430)重仓股方面,新易盛…

2026-01-15