Grok 3 Beta — 推理智能体时代的开启

2025年2月19日

我们很荣幸地宣布 Grok 3 的早期预览版本。作为我们迄今为止最先进的模型,Grok 3 将卓越的推理能力与海量的预训练知识完美融合。这个模型在我们的 Colossus 超级计算集群上训练,其计算规模是此前最先进模型的10倍,在推理能力、数学运算、编程、知识储备和指令遵循等多个方面都实现了显著突破。

通过大规模强化学习,Grok 3 的推理能力得到了极大的提升。它能够像人类思考问题一样,用几秒到几分钟的时间进行深入思考,在这个过程中不断纠正错误、探索多种可能性,最终得出准确的答案。在学术基准测试和真实用户偏好评估中,Grok 3 都展现出了领先的性能,在 Chatbot Arena 评测中获得了 1402 的 Elo 评分。

与此同时,我们还推出了 Grok 3 mini,这是一个在成本效益方面开创新局面的模型。目前这两个模型都处于训练阶段,将根据用户反馈持续快速进化。我们计划在未来几天内向用户推出 Grok 3,让大家能够亲身体验其强大的推理能力。

深度思考:测试时计算与推理能力的突破

今天,我们正式发布两个测试版推理模型:Grok 3 (Think) 和 Grok 3 mini (Think)。这两个模型采用了前所未有规模的强化学习来优化其思维链条过程,以数据高效的方式实现了先进的推理能力。通过强化学习,Grok 3 (Think) 掌握了多项关键能力:优化问题解决策略、通过回溯纠正错误、简化解决步骤,以及充分利用预训练过程中获得的知识。

Grok 3 (Think) 的工作方式与人类解决复杂问题时很相似:它会投入几秒到几分钟的时间进行深入思考,往往会考虑多种解决方案,验证自己的解答过程,并仔细评估如何精确满足问题要求。

尽管这两个模型仍在训练过程中,但它们在各类基准测试中已经展现出了令人瞩目的性能。我们相信,这代表了人工智能推理能力的重要突破,我们期待看到用户们如何运用这些新模型来解决各种挑战。

深入解读:LiveCodeBench 基准测试

为了帮助读者更好地理解 AI 编程能力的评估标准,这里我们介绍一下 LiveCodeBench,这是一个专门用于全面评估大语言模型代码能力的基准测试系统。LiveCodeBench 的特点在于它提供了无污染的测试环境,通过持续从 LeetCode、AtCoder 和 CodeForces 等平台收集新的编程问题来保持测试数据的时效性。

LiveCodeBench 的评估维度包括:

  1. 代码生成能力:模型需要根据自然语言描述和示例测试(输入-输出对)生成正确的程序代码。

  2. 自我修复能力:评估模型发现和纠正代码错误的能力。

  3. 测试输出预测:检验模型是否能准确预测给定测试用例的预期输出。

  4. 代码执行能力:评估模型生成的代码在实际运行环境中的表现。

这种全方位的评估方法不仅考察了模型的基础编程能力,更重要的是评估了模型在实际编程场景中所需的综合能力,这对于下一代 AI 编程助手的发展具有重要的指导意义。通过这样的基准测试,我们能够更客观地评估像 Grok 3 这样的大型语言模型在代码相关任务上的真实能力。