全球首个混合推理模型 Claude 3.7 降世！最强编程大脑暴击 DeepSeek R1

2025-02-2517:50

巴比特

2025-02-25 17:50

巴比特

2025-02-25 17:50

收藏文章

订阅专栏

TTPRO1560148-2-sr_x2.0.png 图片来源：由无界 AI 生成

文章来源：新智元

憋了大半年，Anthropic 终于放出大招——首款混合推理模型 Claude 3.7 Sonnet 重磅登场！

这是 Claude 系列中，迄今为止最智能的模型，几乎能够及时响应，并进行可扩展的、逐步的思考。

简言之，一个模型，两种思考方式。

假设你想破解一个博弈论数学问题——蒙提霍尔问题，扔给 Claude 3.7 Sonnet，然后同时选择「Extended」模式。

它便会展示详细 CoT 过程，用时 52 秒就完成了。

最关键的是，Claude 3.7 Sonnet 目前所有人免费可用，目前「扩展思考」模式还没有上线。

在多项基准测试中，「扩展思考」模式加持下的 Claude 3.7 Sonnet，在数学、物理、指令执行、编程等刷新 SOTA。

相较于上一代 Claude 3.5 Sonnet，数学、编码能力更是暴涨 10% 以上。

除了数学，Claude 3.7 Sonnet（64k extended thinking）几乎完全碾压 o3-mini，DeepSeek R1，与 Grok 3 不相上下。

API 用户可以精确控制模型的思考时间

可以说，Claude 3.7 Sonnet 完全是一个最强「软件工程 AI」。在 SWE-bench 上，创下了 70.3% 的高分。

与此同时，首款「智能体编程」工具 Claude Code（预览版）也在今天问世了。

如今，它已经成为 Anthropic 内部，不可或缺的工具。在早期测试中，Claude 一次性就完成人类需要 45 分钟的任务。

也就是说，你做产品经理，AI 给你打工写代码。

虽没有 Claude 4，Anthropic 这波突如其来的打法，实属给 AI 界又一震撼。

这半个月，注定是 2025 开年以来 AI 含金量最高的。

Grok 3 上周刚发布，这周 DeepSeek 连续开源 5 天，OpenAI GPT-4.5 据称也要上线，再加上 Claude 3.7 Sonnet，大模型领域的混战又开始了。

全球首款「混合推理」模型诞生

在官方博文中，Anthropic 称，Claude 3.7 Sonnet 是 Anthropic 迄今为止最智能的模型，也是市场上首个混合推理模型。

Claude 3.7 Sonnet 能够产生几乎即时的响应或逐步展示思考过程的详细步骤，这些步骤对用户是可见的。API 用户还可以精细控制模型的思考时间。

在编码和前端网页开发方面，Claude 3.7 Sonnet 得到显著提升。

除此之外，他们还推出了一款名为 Claude Code 的命令行工具，用于智能体编码。

目前，Claude Code 仅作为有限的研究预览版提供，它使开发人员能够直接从他们的终端将大量的工程任务委托给 Claude。

推理，是一个 LLM 整体能力

Claude 3.7 Sonnet 的设计理念与市场上其他推理模型不同。

Anthropic 相信，就像人类使用一个大脑来处理快速反应和深度思考一样，推理应该是前沿模型的整体能力，而不是一个完全独立的模型。这种统一的方法为用户提供了更流畅的体验。

Claude 3.7 Sonnet 在几个方面体现了这一理念。

首先，Claude 3.7 Sonnet 既是普通的语言模型（LLM），也是一个推理模型：可以选择在什么时候希望模型正常回答，什么时候希望它在回答之前思考更长的时间。

在标准模式下，Claude 3.7 Sonnet 是 Claude 3.5 Sonnet 的升级版本。

在扩展思考模式下，它在回答之前进行自我反思，这提高了在数学、物理、指令遵循、编码和其他许多任务上的性能。

通常，两种模式对模型的提示效果相似。

其次，通过 API 使用 Claude 3.7 Sonnet 时，用户还可以控制思考的预算——

你可以告诉 Claude 在回答时最多思考 N 个 tokens，N 的最大值为 128K tokens 的输出限制。这使得用户可以在速度（和成本）与回答质量之间进行权衡。

第三，在开发推理模型时，Anthropic 在数学和计算机科学竞赛问题上的优化程度稍微降低，而是将重点转向了更能反映企业实际使用 LLM 的现实世界任务。

Claude 3.7 Sonnet 在 SWE-bench Verified 上刷线 SOTA，该评测旨在评估 AI 模型解决现实世界软件问题的能力

Claude 3.7 Sonnet 在 TAU-bench 上刷新 SOT，TAU-bench 是一个测试 AI 智能体在复杂现实世界任务中与用户和工具交互能力的框架

如前所述，Claude 3.7 Sonnet 几乎在各大基准测试中，性能得到了显著提升。

相较于最新 Grok 3 Beta 模型，Claude 3.7 Sonnet（64k extended thinking）在推理方面几乎打成平手。而在数学、视觉推理方面，又略逊色于 Grok 3 Beta。

与 o3-mini、DeepSeek R1 相比，除了数学，带有扩展思考模式的 Claude 3.7 Sonnet 拿下最高分。

Claude 3.7 Sonnet 在任务指令跟随、通用推理、多模态能力和自主编程方面表现出色，扩展思考模式在数学和科学领域带来了显著提升。除了传统基准测试外，它甚至在宝可梦游戏测试中超越了所有先前模型

AI 编码智能体，一次完成 45 分钟任务

自 2024 年 6 月以来，Sonnet 系列一直是全球开发者的首选模型。

今天，Anthropic 的首个智能体编码工具 Claude Code 诞生，目前以限量研究预览的形式发布。

Claude Code 主动与人协作，能够搜索和阅读代码、编辑文件、编写和运行测试、提交并将代码推送至 GitHub，以及使用命令行工具——同时确保用户在每一步都能参与其中。

此外，本次更新还改进了 Claude.ai 上的编码体验。

现在，所有 Claude 套餐都支持 GitHub 集成——开发者能够将代码仓库直接连接到 Claude。

作为 Anthropic 迄今为止最强大的编码模型，Claude 3.7 Sonnet 能更深入地理解个人项目、工作项目和开源项目，并一举成为修复 bug、开发新功能以及编写 GitHub 文档的强大助手。

目前，Claude Code 还处于早期阶段，但已经成为 Anthropic 团队不可或缺的工具，尤其是在测试驱动开发、调试复杂问题和大规模重构方面。

在早期测试中，它能够一次性完成了通常需要手动工作 45 分钟以上的任务，显著减少了开发时间和工作量。

在接下来的几周里，Anthropic 计划根据使用情况不断改进它：提升工具调用的可靠性、增加对长时间运行命令的支持、改进应用内渲染效果，并扩展 Claude 对自身能力的理解。

全新的测试时 Scaling

Claude 作为 AI 智能体

Claude 3.7 Sonnet 具备了一项被称为「行为扩展」（action scaling）的新特性——这种改进使其能够迭代调用函数、响应环境变化，并持续操作直到完成开放式任务。

例如在计算机使用方面：Claude 能够通过发出虚拟鼠标点击和键盘按键来代替用户完成任务。与前代相比 Claude 3.7 Sonnet 能够在计算机使用任务中投入更多的交互次数，同时配备更充足的时间和计算资源，因此往往能取得更好的结果。

这一进步在 OSWorld 评估中得到了充分体现，这是一个用于评估多模态 AI 智能体能力的测试平台。

Claude 3.7 Sonnet 在初始阶段就展现出了较好的表现，而随着其持续与虚拟计算机交互，其性能优势还会随时间推移而不断扩大。

Claude 的扩展思考模式与 AI 智能体训练相结合，不仅帮助它在 OSWorld 等众多标准评估中取得了更好的表现，还让它在一些其他意想不到的任务中实现了重大突破。

以玩游戏为例——特别是在 Game Boy 掌机经典游戏「口袋妖怪：红」中的表现。他们为 Claude 配备了基础记忆能力、屏幕像素输入功能，以及按键操作和屏幕导航的函数调用能力，使其能够突破常规上下文限制，持续进行游戏，实现长达数万次的持续交互。

在下图中，他们对比了具备扩展思考能力的 Claude 3.7 Sonnet 与之前版本的 Claude Sonnet 在口袋妖怪游戏中的进度。

如图所示，早期版本在游戏伊始就难以推进，Claude 3.0 Sonnet 甚至无法走出故事起点真新镇的初始小屋。

而 Claude 3.7 Sonnet 凭借改进后的 AI 智能体能力取得了显著进展，成功挑战并击败了三位道馆馆主，获得了相应的徽章。

Claude 3.7 Sonnet 在尝试多种策略和重新审视既有假设方面表现出色，这使它能够在游戏过程中不断提升自身能力。

串行与并行测试时计算 Scaling

当 Claude 3.7 Sonnet 运用其扩展思考能力时，可以说它利用了「串行测试时计算」机制。

具体而言，它会在生成最终输出之前，执行多个连续的推理步骤，并在此过程中持续增加计算资源投入。

总体来看，这种机制能够以可预测的方式提升其性能表现：例如，在数学问题求解方面，其准确率会随着允许采样的「思考 Token」数量的增加呈对数增长。

Claude 的研究人员还在探索使用并行测试时计算来提升模型性能。

具体方法是通过采样多个独立的思维过程，并在不预先知道正确答案的情况下选择最佳结果。这可以通过多数表决或共识投票机制来实现，即选择出现频率最高的答案作为「最佳」答案。

另外也可以使用另一个 LLM 来验证其工作成果，或采用经过训练的评分函数来选择最优答案。

这些优化策略（及相关研究工作）已在多个 AI 模型的评估报告中得到验证。

在 GPQA 评估中，他们通过并行测试时计算 Scaling 取得了突破性进展。

具体而言，通过调用等同于 256 个独立样本的计算资源，结合训练优化的评分模型，并设置最大 64,000 个 Token 的推理限额，Claude 3.7 Sonnet 在 GPQA 测试中达到了 84.8% 的总体得分（其中物理学部分高达 96.5%）。

值得注意的是，即使超出常规多数表决的限制范围，模型性能仍在持续提升。

下图列出了评分模型方法和多数表决方法的详细结果。

这些方法能够提升 Claude 回答的质量，而且通常无需等待其完成推理过程。同时进行多个不同的深度思维运算，Claude 能够探索更多问题解决思路，显著提升正确答案的输出频率。

三步路线图，Claude 合作者已来

Claude 3.7 Sonnet 和 Claude Code 标志着，向真正增强人类能力的人工智能系统迈出的重要一步。

凭借其深入推理、自主工作和有效协作的能力，它们让我们更接近一个未来，在那里人工智能丰富了人类所能实现的事情。

如今，Claude 合作者已来。

最新版，可以免费用了

值得一提的是，Claude 3.7 Sonnet 目前已经在 Claude.ai 平台上线，Web、iOS 和 Android 用户皆可免费体验。

对于希望构建自定义 AI 解决方案的开发者，可以通过 Anthropic API、Amazon Bedrock 以及 Google Cloud 的 Vertex AI 进行访问。

在标准模式和扩展思考模式下，Claude 3.7 Sonnet 的价格与其前代产品相同：3 美元 / 百万输入 token，15 美元 / 百万输出 token ——这其中包括了思考 token 的费用。

Anthropic 套餐定价

AI 大佬测试

宾夕法尼亚大学沃顿商学院的教授 Ethan Mollick 已经在过去几天对 Claude 3.7 进行了测试，Claude 3.7 经常给他带来与第一次使用 ChatGPT-4 时相同的感觉：既惊叹不已，又对它们的能力感到一丝不安。以 Claude 的原生编码能力为例，我们现在可以通过自然对话或文档获得可运行的程序，而无需任何编程技能。

例如，他向 Claude 提供了一份关于新型 AI 教育工具的提案，并在对话中要求它「以 3D 形式展示所提议的系统架构，并使其具有交互性」。结果，它生成了我们论文中核心设计的交互式可视化效果，没有任何错误。

这些图形虽然很简洁，但并不是最令人印象深刻的部分。真正让人惊叹的是，Claude 自主决定将其制作成一个逐步演示来解释相关概念，而这并不是我们要求它做的。

这种对需求的预判和对新方法的思考是 AI 领域中的一项新突破。