Lazy loaded image
🗒️GPT4.5让我对OpenAI失去信心
字数 1947阅读时长 5 分钟
2025-3-1
2025-11-2
type
status
date
slug
summary
tags
category
icon
password
😀
GPT4.5:一场期待与现实的落差
OpenAI 在 2025 年 2 月 28 日发布的 GPT4.5,曾被寄予厚望成为 AI 领域的新标杆。然而,这场发布会却像一场精心策划的魔术表演 —— 帷幕拉开时掌声雷动,谢幕时却留下了观众面面相觑的沉默。作为长期关注 AI 发展的观察者,我不得不承认:这场 “最强模型” 的盛宴,或许只是一次昂贵的试错。
自 2025 年初以来,我们见证了一个又一个令人惊叹的模型的发布——从 DeepSeek-R1 和 o3-mini 到 Grok 3 和 Claude 3.7 Sonnet。这个不断扩大的高级 AI 模型列表的最新成员是备受期待的 OpenAI GPT-4.5。外媒曾在过去宣称”这个 GPT 系列的新模型带来了“Vibe Check”以及增强的 ChatGPT 聊天机器人界面功能。它将LLM的霸权重新带回 OpenAI,在与其他最新模型如 Grok 3 和 Claude 3.7 Sonnet 竞争时。“而我,只是失望。

📝 GPT4.5是真的震撼发布么?

GPT-4.5 是 OpenAI 的最新模型,也是 GPT 系列的最后一款模型。这个模型的第一个线索是在几周前由 Sam Altman 给出的,当时他发布了 OpenAI 的路线图。内部代号“奥利安”,这是 OpenAI 的最后一个“非思维链”模型。这意味着与 o3-mini、Grok 3 或 DeepSeek R1 等模型不同,GPT-4.5 直接给出答案,而不逐步解释其推理过程。
notion image
它依赖于学习到的模式来快速生成响应,但在处理基于复杂逻辑的任务时可能会遇到困难。该模型通过“无监督学习”进行训练,成为一个本质上智能的模型,具有更好的世界知识。该模型还显著降低了幻觉率,并增强了上下文知识和写作技能。这就是为什么 GPT-4.5 的回答听起来更自然,不会因为过多的推理而负担过重。

数据排行榜单可以看出OpenAI盛名之下的隐忧

官方公布的基准测试数据显示,GPT4.5 在 SimpleQA 测试中以 62.5% 的准确率击败了 GPT-4o(38.2%)和 o3-mini(80.3%),但在更具挑战性的数学推理领域,其 36.7% 的 AIME24 得分与 o3-mini 的 87.3% 形成刺眼对比。这种 “偏科” 现象在 Cognition 编码测试中尤为明显,其表现甚至不及 Claude 3.7。
notion image
notion image
notion image
更值得玩味的是,OpenAI 在发布初期声称 GPT4.5 “不是推理模型”,并在随后悄然删除了技术文档中 “非前沿模型” 的表述。这种矛盾的态度,恰似一位参赛者赛前宣称 “重在参与”,赛后却急于修改成绩单。

从实际体验来看可以说OpenAI创造了一个昂贵的 “陪聊”

这个新的模型目前只开放给ChatGPT Pro 用户,也就代表了一手体验在网页端便需要 200 美元的入场券,确实是 “高端玩具”。不可否认,其在情感共鸣和自然对话方面确实有突破性进步。当用户倾诉考试失利时,它能以 “共情式回应” 替代机械的安慰,这种 “高情商” 特质在客服、心理咨询等场景中具有实用价值。
但这种优势被高昂的成本严重稀释。75 美元 / 百万输入 tokens 的定价,相当于每分钟对话成本超过 0.5 美元。更令人困惑的是,这个号称 “知识最渊博” 的模型在处理跨语言任务时仅表现平平,在多模态交互中甚至不如旧版 GPT-4o。
notion image
再简单对比一下deepseek的价格,害,无话可说。
notion image

OpenAI的战略转向了此前失去关注的 “人文实验”

OpenAI 将 GPT4.5 定位为 “自然对话的标杆”,试图开辟 AI 的 “人文赛道”。这种尝试本身值得肯定,但在具体执行中却暴露出战略摇摆。当竞争对手 DeepSeek-R1 以开源姿态冲击技术边界,Anthropic 的 Claude 3.7 Sonnet 实现推理与直觉的融合时,GPT4.5 却在 “情感细腻度” 上孤注一掷。
notion image
notion image
notion image
更令人担忧的是,OpenAI 承认正在评估是否长期保留该模型的 API 服务。这种 “试水” 心态,与当初推出 GPT-4 时的野心勃勃形成鲜明反差。或许正如 Altman 所言,这场发布只是 “技术过渡的垫脚石”,但对于为此买单的用户而言,这脚石未免太过硌脚。

🤗 总结归纳

GPT4.5 的发布更像是一场行业警示:当预训练模型的边际效益趋近于零时,单纯的参数堆砌已难以为继。OpenAI 的这次试错,或许能倒逼整个行业重新思考:AI 的未来,究竟是追求 “更像人类” 的幻觉,还是回归 “解决问题” 的本质?
作为用户,我认为当前阶段真正的目标应当是真正能突破人类认知边界的智能助手,人类作为血肉之躯从进化层面似乎是从感性创造出理性并将二者融合涂抹在了生存的领地,但,人工智能以神经网络为基础痴呆的学习人类的一切,即使是推理模型也并非如字面意义所说是真的学会”思考“,大模型的技术本质就决定其只是数学和统计的评估,起码到目前为止是这样的,所以对于塑造的那么美好的AGI时代我认为道路也该是从理性逐步走向感性,我们也还没到需要靠数学统计载体来寻求灵魂共鸣的时刻。在deepseek火爆时我曾试验了不少哲学话题,结果也确实给我带来了相当的震撼,似乎真能为我解答疑惑。但冷静之余我也真正认识到,真正触动我的正是人类自己的智慧与情感,从始至终它都是人类文化的转述者,我们都沉浸在了第三者转述这个过程中距离感带来的”朦胧“然后归结于AGI的魅力,说到底,我真的很怕你我失去对人类本身的敬畏和尊重。不是说真的会消失,而是,哪怕只是短暂的蒙蔽双眼,高速行驶的车也可能坠入雾中的悬崖,因为AGI的泡泡真的很美,我也不想它以破裂为代价还一并带走所谓人文情怀。
或许在 GPT-5 与推理模型的融合中,我们能看到新的希望 —— 但在此之前,GPT4.5 的教训值得所有从业者深思:技术的傲慢,往往始于对用户期待的误读。

📎 参考文章

  • 一些引用
  • GPT-4.5 发布——期待与失望并存_模型_OpenAI_用户
 
 
 
notion image
上一篇
NVIDIA GTC 2025 演讲
下一篇
Grok3恰恰是Scaling Low到达极限的证明

评论
Loading...