OpenAI新推“强化微调”，能否让AI成为各领域专家？-产业-智快网

在近期科技界的瞩目之下，OpenAI启动了一场为期两周的盛大新品发布活动，命名为“shipmas”，旨在带来一系列革新性的功能、产品及演示。活动进入第二天，OpenAI隆重推出了强化微调（Reinforcement Fine-Tuning，简称RFT）技术，这一突破性进展为开发者和机器学习工程师在构建针对复杂特定领域任务的专家模型上开辟了新的道路。

强化微调技术通过一种创新的模型定制方法，使得开发者能够利用精选的高质量任务集对模型进行精细调整。该技术引入了参考答案来评估模型的响应，进而显著提升模型在特定领域任务中的推理能力和准确性。这一方法不仅深化了模型处理类似问题的能力，还极大提高了其在该领域特定任务上的表现精度。

OpenAI官方对强化微调技术进行了详细介绍：开发者可以运用数十至数千个高质量任务，对OpenAI的模型进行个性化定制，并通过参考答案对模型的回答进行评分。官方指出，RFT技术通过强化模型推理过程，显著提高了其在特定领域任务上的准确性。

与传统的微调方法相比，强化微调利用强化学习算法，将模型的表现从一般高水平提升至专家级水平。RFT不仅超越了标准的监督式微调，更让模型学会以一种全新的方式进行推理。通过对模型答案进行评分并强化正确的推理路径，RFT技术仅需少量示例便能显著提升模型性能。

RFT技术还允许用户利用自己的黄金数据集创建独特的模型，并将其应用于法律、金融、工程、保险等需要深厚专业知识的领域。这一技术的推出，无疑为这些领域带来了人工智能辅助的新机遇。

OpenAI此次活动特别面向研究机构、高校和企业开放申请，尤其是那些目前由专家执行一系列复杂狭窄任务，且有望从人工智能辅助中受益的机构。OpenAI表示，强化微调技术在结果具有客观“正确”答案，且大多数专家会达成一致的任务中表现出色，因此在法律、保险、医疗、金融、工程等领域具有广泛的应用前景。

参与者将有机会提前访问Alpha版的强化微调API，并在特定领域任务中进行测试。OpenAI还鼓励参与者分享数据集，共同推动OpenAI模型的改进。这一举措不仅促进了技术的开放共享，还加速了人工智能技术的迭代升级。

OpenAI预计将于2025年初公开发布强化微调功能。OpenAI首席执行官山姆·阿尔特曼对强化微调技术给予了高度评价：“强化微调的效果令人惊叹，它是我2024年最大的惊喜之一。”这一技术的推出，无疑将为人工智能技术的发展和应用开启新的篇章。