蚂蚁百灵Ling-2.6-flash模型揭晓：高效推理，百万字长篇轻松生成-产业-智快网

蚂蚁集团旗下百灵团队近日宣布，其最新研发的轻量级大模型Ling-2.6-flash正式亮相。该模型此前以匿名形式在OpenRouter平台上线测试，迅速攀升至热榜首位并持续保持领先地位，日均调用量突破百亿级tokens。经过多轮优化验证，这款总参数量达104B、激活参数7.4B的Instruct模型，现已在OpenRouter与官方平台同步开放免费API调用服务。

技术团队通过架构创新实现性能突破，该模型采用混合线性注意力机制与稀疏化MoE架构，在4卡H20硬件环境下推理速度达340 tokens/s，Prefill吞吐量达到主流模型的2.2倍。特别在token效率优化方面，模型在Artificial Analysis完整评测中仅消耗15M tokens即达成目标，成本约为同类模型的十分之一。这种设计使其在长文本生成、实时交互等场景中展现出显著优势，百万字级内容可在数十分钟内完成创作。

针对Agent应用场景，研发团队构建了专项强化训练体系。通过扩展高保真交互数据集，模型在工具调用、多步骤规划等核心能力上取得突破性进展。在BFCL-V4、TAU2-bench等权威评测中，该模型与参数量更大的竞品相比，仍保持相近甚至领先的性能表现。实测数据显示，其可稳定处理需求整理、任务拆解等复杂工作流，幻觉率较前代降低37%，结果可用性显著提升。

在应用开发层面，Ling-2.6-flash展现出强大的场景适应能力。测试案例显示，模型可在1分钟内完成包含明暗模式切换、响应式设计的网站开发，并支持局部功能秒级修改。结合Kilo Code插件使用时，多子Agent协同机制使输出效率进一步提升。目前该模型已支持BF16、FP8、INT4等多种精度模式，其中INT4量化版本可在DGX Spark硬件上运行，为边缘设备部署提供可能。

当前开放的服务方案包含双重福利：首周提供完全免费的API调用，之后每日保留50万tokens免费额度，超出部分按输入0.6元/百万tokens、输出1.8元/百万tokens计费。技术社区可期待的是，该模型的BF16、FP8、INT4版本代码即将开源，配套的推理算子优化方案也将陆续公开，这为开发者自定义部署提供了重要支撑。

尽管在复杂系统开发等场景仍存在局限，但百灵团队通过持续迭代已显著改善模型稳定性。最新测试表明，在涉及中英双语切换、长程任务执行等场景时，模型的响应准确率较测试初期提升29%。技术白皮书显示，研发团队正探索通过动态注意力分配机制，进一步突破推理深度限制，在保持高效特性的同时提升复杂场景处理能力。

世界模型：跨越语言边界，为AI注入理解物理世界的“灵魂”

说到底，发展世界模型不是为了造一个更聪明的聊天对象，而是为了给人工智能装上一套关于存在本身的坐标系，让它在理解世界规律的基础上，去预测、去创造、去真正地与我们脚下的现实对话。回望这场关于世界模型的探讨，从…

2026-04-22

OpenAI发布ChatGPT Images 2.0：图像生成技术升级，开启实用创作新篇章

OpenAI表示，这一新模型不仅适用于艺术创作，还特别擅长生成“立即可用”的实用视觉内容，如复杂布局的UI设计、带密集文字的图表、真实感强的截图等。同时在ChatGPT应用中新增独立的“Images”入口，…

2026-04-22

Anthropic高薪邀科学家驻场：借专业智慧，为Claude科研能力“纠偏”

Anthropic官网刚刚上线了一个新岗位：Anthropic STEMFellow（研究员），招聘对象是STEM（科学、技术、工程、数学）领域的专家。从给API到请人进来，这三年来，Anthropic…

2026-04-22

谷歌推出Deep Research系列智能体：基于Gemini 3.1 Pro，赋能企业级工作流

IT之家 4 月 22 日消息，谷歌昨日（4 月 21 日）发布博文，宣布升级其自主研究智能体，推出 Deep Research 与 DeepResearch Max，均基于 Gemini 3.1 Pro …

2026-04-22

小米18系列携骁龙8E6来袭：2nm芯片领航，影像多核全面升级

2026-04-22

一加Ace 6至尊版4月28日发布 “金属风暴”配色带来视觉触觉双提升

2026-04-22

黄仁勋：英伟达软硬件协同，打造全球低成本AI Token新标杆

2026-04-22