开云(中国)Kaiyun·体育官方网站-登录入口让它更符合作念这件事-开云(中国)Kaiyun·体育官方网站-登录入口

栏目分类

热点资讯

新闻

发布日期：2026-01-14 15:53 点击次数：164

文 | 王方玉开云(中国)Kaiyun·体育官方网站-登录入口

剪辑 | 苏建勋

12 月 7 日北京时辰凌晨两点，OpenAI 公司带来了贯串 12 天发布会的第二场直播。

本次直播中，OpenAI 带来了新的决策——强化微调（Reinforcement Fine-Tuning）。该决策和功能瞻望将于 2025 年负责推出。

强化微调是一种全新的模子定制过错，它将一个预锤真金不怕火好的通用模子，通过在特定规模的小规模数据集上进一步锤真金不怕火，使其稳当特定任务的时刻。通俗来说即是在一个"学过许多东西"的大模子上，再让它针对某个具体任务"重心教训"，让它更符合作念这件事。

OpenAI 高管先容称，强化微调不错将大型话语模子从"高中水平"普及至"博士级大家"的才气，符合高校、运筹帷幄东谈主员和企业打造独到的 AI 经管决策。举例 OpenAI 正在与汤森路透合营，打造专属于该公司的法律专科模子。

莫得参与本场直播的 OpenAI CEO Sam Altman 在外交媒体表上："恶果一级棒，是我 2024 年最大的惊喜，期待看到东谈主们构建什么！"

"强化微调让行业大家大模子的竣事变得容易了。"一位 AI 大模子欺诈企业的首创东谈主告诉 36 氪，这是一项和无为用户联系不大，但对专科规模责任者很有价值的新决策。

直播现场，OpenAI 展示了一个典型的案例——稀薄遗传病运筹帷幄。

OpenAI 与伯克利现实室和德国 Charit é 病院的运筹帷幄东谈主员合营，使用强化微调锤真金不怕火 GPT o1 Mini 模子。该模子学会了有用推理稀薄疾病的成因，并在性能上卓越了更大的 GPT o1 模子，展示了其在会诊和露出复杂病情方面的后劲。

值得一提的是，强化微调与此前的微调形状有着显赫各别。与传统微调不同，强化微调并不是通俗地让模子"记取谜底"，而是通过锤真金不怕火模子在特定规模中学会推理，找到正确谜底。

具体来说，强化微调有两个不同数据蚁合，一个是微调数据集，一个是测试数据蚁合，模子先基于微调数据蚁合去锤真金不怕火，然后用测试数据蚁合考据，反复自我推理锤真金不怕火考据，最终达到很高的水平。因而强化微调不错竣事在数据量有限的情况下（随机仅需几十个样本）也能竣事显赫性能普及。

不外，强化微调决策现在仍处于运筹帷幄预览阶段，OpenAI 运筹帷幄在 2025 年全面推出。

现在 OpenAI 正邀请运筹帷幄机构、大学以及企业参与强化微调运筹帷幄运筹帷幄。OpenAI 但愿与心仪分享数据集的组织合营开云(中国)Kaiyun·体育官方网站-登录入口，进一步优化模子性能。