OpenAI 发布 GPT-4.5：性能全面超越前代

2025-03-06 11:59

元宇宙之心

2025-03-06 11:59

来源链接

订阅此专栏

收藏此文章

‍‍‍‍

上周，OpenAI 推出了 GPT-4.5，并声称这是“迄今为止规模最大、知识最丰富的模型”。该模型最初仅作为研究预览版推出，仅提供给 ChatGPT Pro 订阅用户（每月 200 美元）。不过，从今天起，更多 OpenAI 用户可以以更低的价格使用它。

01.

GPT-4.5 访问权限扩大

周三上午，OpenAI 通过 X 平台发帖宣布，已开始向 ChatGPT Plus 用户推出 GPT-4.5。最初发布时，OpenAI 表示全面推出可能需要一到三个小时。然而，仅一小时后，GPT-4.5 就全面推出，比预期的要快。

对于 ChatGPT Plus 用户来说，GPT-4.5 的具体使用限制尚不明确。

OpenAI 表示，计划为每位用户提供“较大的使用额度”，但随着公司对模型需求的进一步了解，这些额度可能会有所调整。ChatGPT Pro 订阅用户仍然可以继续使用 GPT-4.5，但如果想以更低的价格体验这一功能，可以选择每月 20 美元的 ChatGPT Plus 计划。

02.

什么是 GPT-4.5？

在发布时，OpenAI 表示，用户在使用 GPT-4.5 时将感受到整体体验的提升，具体表现为减少“幻觉”现象、更精准地理解用户意图，以及更高的情商。

总体而言，与之前的模型相比，GPT-4.5 的交互更加直观和自然，这主要得益于其更丰富的知识储备和更强的上下文理解能力。

推动这一模型改进的两大核心方法是无监督学习（用于增强词汇知识和直觉）以及推理能力。

尽管 GPT-4.5 并未提供 OpenAI o1 推理模型所具备的链式思维推理功能，但它仍然能够以更低的延迟提供更高水平的推理能力，同时还具备“社交线索感知”等其他改进。

例如，在演示中，ChatGPT 被要求在运行 GPT-4.5 和 o1 时生成一段传达仇恨信息的文本。o1 版本花费了更多时间，并且只生成了一条非常严肃且略显严厉的回应。而 GPT-4.5 则提供了两种不同的回应，一种较为轻松，另一种更为严肃。两者都没有直接提及仇恨，而是表达了对“用户”行为选择的失望。

同样地，当两个模型被要求提供某个技术主题的信息时，GPT-4.5 的回答比 o1 的结构化输出更加自然流畅。最终，GPT-4.5 的设计目标是处理各种主题的日常任务，包括写作和解决实际问题。

此外，OpenAI 还通过新的监督技术和传统技术（如监督微调和基于人类反馈的强化学习）对模型进行了训练，以实现这些改进。

在直播中，OpenAI 带领观众回顾了其模型的演进历程，从 GPT-1 开始，依次让所有过往模型回答一个问题：“海水为什么是咸的？”

不出所料，每一个后续模型给出的答案都比前一个更好。而 GPT-4.5 的独特之处在于，OpenAI 称之为“出色的个性”，这使得它的回答更加轻松、更具对话性，并通过押韵技巧让文本更具吸引力。

GPT-4.5 集成了 ChatGPT 的一些最先进功能，包括搜索、画布以及文件和图片上传。不过，暂不会支持语音模式、视频和屏幕共享等多模态功能。OpenAI 表示，未来计划让模型之间的切换更加无缝，不再依赖模型选择器。

03.

基准测试

当然，新模型的发布少不了基准测试的环节。

在用于评估这些模型的一些主要基准测试中，包括竞赛数学（AIME 2024）、博士级科学问题（GPQA Diamond）和 SWE-Bench 验证（编码），GPT-4.5 的表现均优于其前身通用模型 GPT-4o。

最值得注意的是，与 OpenAI 最近推出的推理模型 o3-mini 相比，该模型被训练为“先思考再回答”，GPT-4.5 的表现比 GPT-4o 更接近 o3-mini，甚至在 SWE-Lancer Diamond（编码）和 MMMLU（多语言）基准测试中超越了 o3-mini。

在使用生成式 AI 模型时，一个主要担忧是它们容易产生“幻觉”或在回答中包含错误信息。两项不同的“幻觉”评估，SimpleQA 准确性和 SimpleQA 幻觉测试显示，GPT-4.5 比 GPT-4o、o1 和 o3-mini 更准确，且“幻觉”现象更少。

与人类测试人员的对比评估结果显示，GPT-4.5 是比 GPT-4o 更受欢迎的模型。无论是日常问题、专业问题还是创意问题，人类测试人员都更倾向于选择 GPT-4.5。

04.

安全性

一如既往，OpenAI 向公众保证，这些模型经过充分的安全评估后才得以发布。公司对模型进行了压力测试，并在随附的系统卡片中详细说明了这些结果。

OpenAI 还表示，随着每次新版本的发布和模型能力的提升，都有机会让模型变得更安全。因此，在 GPT-4.5 的发布中，公司结合了新的监督技术和基于人类反馈的强化学习（RLHF），以进一步提升模型的安全性。

原文来源于：

1.https://www.zdnet.com/article/openai-expands-gpt-4-5-rollout-heres-how-to-access-and-what-it-can-do-for-you/

中文内容由元宇宙之心（MetaverseHub）团队编译，如需转载请联系我们。

最新行业深度研究报告发放中！资本实验室全新发布 37 页量化报告《 2023 全球区块链应用市场暨产业图谱报告（2023） 》，收录 1000+ 应用案例，探索区块链应用趋势， 入群即可免费领取 。

XIN 科技周刊（2.22-2.28）

DeepSeek-R2 要来了？

估值已达 615 亿美元！Anthropic 为何能吸引顶级资本疯狂追逐？

亚马逊放大招！多模型融合 Alexa+ 来袭，剑指千亿级智能家居市场

解放生产力：6 种方式让 AI 代理帮助你在几分钟内完成数小时的工作

来源链接

【免责声明】市场有风险，投资需谨慎。本文不构成投资建议，用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

数据请求中

数据请求中

在 App 打开

估值已达 615 亿美元！Anthropic 为何能吸引顶级资本疯狂追逐？

推荐专栏