近日,国际权威评测机构ClawBench公布了最新一期大型语言模型综合排行榜,中国科技企业表现亮眼。北京智谱科技研发的GLM-5-Turbo以93.9分的绝对优势登顶全球榜首,字节跳动旗下豆包模型Doubao-Seed-2.0-lite紧随其后位居次席,小米公司更凭借MiMo-V2系列两款模型实现双榜突破,展现出中国AI研发团队的强劲实力。
本次评测中,字节跳动的豆包模型不仅在性能指标上斩获全球第二,更以显著优势成为全榜单中运行成本最低的模型。小米公司则实现多点开花,其MiMo-V2-Omni模型在运行效率专项测试中表现突出,位列全球第九;更值得关注的是,该系列高端版本MiMo-V2-Pro在复杂逻辑推理、长指令执行稳定性等核心指标上达到国际领先水平,在Model Rank专业评测中跻身全球前五。
在反映企业综合研发能力的LabRank实验室评测体系中,小米公司持续保持强劲势头。其Text Arena(ArenaExpert)文本生成能力评测位列全球第四,代码生成专项Code Arena评测位居全球第五,整体技术实力已形成对Anthropic、OpenAI、谷歌等国际顶尖机构的追赶态势。据评测机构介绍,Text Arena榜单采用全球首创的双盲测试机制,通过隐藏模型身份信息、由真实用户直接投票的方式,有效规避了传统评测中常见的"数据集优化"问题,确保评测结果真实反映模型的实际应用表现。
行业观察人士指出,本次评测结果标志着中国AI企业在基础模型研发领域已实现从跟跑到并跑的跨越。特别是小米等硬件厂商的入局,正在推动大模型技术从实验室走向真实应用场景,这种"软硬协同"的发展模式或将重塑全球AI产业竞争格局。随着ClawBench等第三方评测体系的不断完善,技术实力的客观比较将成为推动行业健康发展的重要力量。

