关注我们.

公告

Anthropic 放弃 Claude Opus 4.1,大幅提升编码基准

Anthropic 推出 克劳德作品 4.1 今天,其旗舰 AI 模型的升级版本在实际编码任务中实现了 74.5% 的准确率,创下了新的基准记录,同时保持了与前代产品相同的定价。

此次更新是人工智能行业预期的一项战略举措 OpenAI 的 GPT-5 版本Anthropic 将其最新模型定位为一款极具竞争力的替代方案,擅长应对复杂的编程挑战和自主完成任务。该公司承诺在未来几周内实现“大幅改进”,这表明领先的人工智能开发商之间的竞争将日趋激烈。

关键性能改进

根据 Anthropic 的公告,Claude Opus 4.1 在三个关键领域提升了其前身的性能:需要多步推理的代理任务、现实世界的编码应用和分析推理能力。

该模型在 SWE-bench 已验证基准该测试衡量了人工智能识别和修复开源软件中实际错误的能力——超过了之前 Claude Opus 4 的 72.5% 的得分,并且比 OpenAI 的 o 系列模型高出约 XNUMX 个百分点。

GitHub 特别指出多文件代码重构功能取得了显著进步,而乐天集团则强调该模型能够精确识别大型代码库中的更正,而不会引入新的错误。 帆板一家编码初创公司报告称,Opus 4.1 在初级开发人员基准测试中比 Opus 4 提高了一个标准差,与之前从 Sonnet 3.7 到 Sonnet 4 的性能飞跃相比。

可用性和集成

升级后的模型可立即通过网页界面和 Claude Code 供付费 Claude 用户使用,也可以通过 Anthropic 的 API、Amazon Bedrock 和 Google Cloud 的 Vertex AI。开发者可以使用 API 标签访问新模型,且价格与上一版本相同,从而保持 定价结构 这使得 Claude 在企业市场上具有竞争力。

除了软件工程之外,Claude Opus 4.1 还展示了其在数据分析和研究任务方面增强的功能。Anthropic 特别强调了“细节追踪和代理搜索”方面的改进,指的是该模型能够在复杂的多步骤操作中保持上下文信息——这对于 企业应用 需要自主解决问题。

行业背景和竞争

发布时间似乎是经过深思熟虑的,因为行业报告表明 OpenAI 计划在不久的将来发布 GPT-5。据 信息,GPT-5 预计将专注于类似的领域——编程、数学和基于代理的任务——尽管分析师预测改进可能是渐进的,而不是革命性的。

Claude 模型的快速迭代——此次更新是在 Claude 4 系列于五月发布三个月后进行的——反映了人工智能发展的加速,因为各公司正在争夺企业和开发者工具的市场地位。这延续了 Anthropic 一直以来的定位,即在保持竞争性性能指标的同时,将自己定位为 OpenAI 的安全替代方案。

技术细节和实现

这个 系统卡 揭示了 Claude Opus 4.1 是一个混合推理模型,无论是否启用扩展思维模式,都能运行。在 SWE-bench Verified 和 Terminal-Bench 等基准测试中,该模型无需扩展思维即可获得结果,而 GPQA Diamond 和 MMMU 等其他基准测试则使用了高达 64K 个扩展思维能力的 token。

该模型沿用了 Anthropic 在 Claude 4 系列中使用的简单 SWE 基准测试框架——仅配备一个 Bash 工具和一个通过字符串替换操作的文件编辑工具。这种极简方法与更复杂的实现方式形成鲜明对比,但仍能取得业界领先的结果。

展望未来

Anthropic 建议所有 Opus 4 现有用户升级到新版本,以应对所有用例。该公司已提供全面的文档,包括 模型页 以及对实施该技术感兴趣的开发人员的技术规范。

随着 Anthropic 和 OpenAI 都在准备发布重要版本,未来几周可能成为决定下一代人工智能能力领导地位的关键时期。 人工智能模型变得越来越复杂 在推理和编码能力方面,竞争正在从原始性能指标转向生产环境中的实际实施和可靠性。

常见问题解答 (Claude Opus 4.1)

与早期版本相比,Claude Opus 4.1 如何改进编码和推理任务?

Claude Opus 4.1 在 SWE-bench Verified 上达到了 74.5%(高于 Opus 72.5 的 4%),在多文件代码重构、复杂代码库中的细节跟踪和代理搜索功能方面有显着的改进,使其能够更有效地处理多步骤推理任务。

Claude Opus 4.1 在编码和 AI 代理方面的主要实际应用是什么?

该模型擅长调试大型代码库而不会引入新的错误、跨多个文件的自主代码重构、深入的数据分析以及需要持续上下文的研究任务 - 使其成为企业软件开发和自动化工作流程优化的理想选择。

Claude Opus 4.1 在 SWE-bench 上的表现如何反映其编码能力?

SWE-bench Verified 衡量了 AI 识别和修复开源软件中实际错误的能力,而 Claude Opus 4.1 的 74.5% 得分代表了公开报告的最高性能,比 OpenAI 的 o 系列模型高出约 XNUMX 个百分点。

Claude Opus 4.1 与 GitHub Copilot 或 ChatGPT 等其他 AI 模型的主要区别是什么?

与专注于代码完成的 GitHub Copilot 不同,Claude Opus 4.1 处理包括调试和重构在内的完整问题解决工作流程,同时提供可以在快速响应和复杂任务的扩展思考之间切换的混合推理模式——这是标准 ChatGPT 实现中不具备的功能。

开发人员和企业如何将 Claude Opus 4.1 集成到他们的工作流程和平台中?

开发人员可以通过 API 使用标签“claude-opus-4.1-4-1”访问 Claude Opus 20250805,通过 Amazon Bedrock、Google Cloud Vertex AI 或通过 Claude Code 进行命令行集成,其定价与 Opus 4 相同,并且无需对现有实现进行任何代码更改。

Alex McFarland 是一位人工智能记者和作家,致力于探索人工智能的最新发展。他与全球众多人工智能初创公司和出版物合作。