type
status
date
slug
summary
tags
category
icon
password
Grok3使用了20万张H100 GPU训练,算力消耗是DeepSeek V3的263倍,但榜单得分提升是否成正比呢?本文将从算法技术、资源消耗、榜单排名、AGI发展潜力等角度综合分析Grok 3与DeepSeek的技术路线差异。
📝 Grok3号称地表最强?代价为何?
一.Grok-3的深入技术分析
- 算法创新有限和强化学习与监督学习的结合。其“思维链推理”能力虽能分解复杂任务,但本质是对现有CoT(Chain-of-Thought)技术的扩展。文献指出,Grok 3未展示革命性突破,更多依赖算力堆砌。
Grok 3的核心技术仍基于Transformer架构优化,主要改进包括分层注意力机制
- 资源消耗与边际效应
- 算力规模:Grok-3训练分为两阶段:
- 第一阶段:122天使用10万张H100 GPU;
- 第二阶段:92天扩展到20万张H100集群(总计约1.28e25 FLOPs)。

- 训练策略:无突破性算法创新披露,依赖大规模并行训练和混合精度优化,延续传统Scaling Law路径。
- 竞技场排名:Grok-3在多项评测中排名第一,综合得分首超1400分(如TruthfulQA、MMLU等),但相较V3的“性价比”显著下降。
- 性能提升:在Chatbot Arena中得分1400,较第二名Gemini 2.0(1380分)仅提升1.4%;数学推理(AIME'24)得分52,较DeepSeek-V3(39分)提升33%,但训练成本差距远高于此。这表明Scaling Law的边际效应显著:算力增加10倍仅带来个位数百分比提升。
.png?table=block&id=1a9780ab-63af-80cc-95b2-ede787370bec&t=1a9780ab-63af-80cc-95b2-ede787370bec)


若以V3得分为基准(1300分),Grok-3需多消耗263倍算力换取约100分提升,单位算力回报率下降至0.38%(远低于早期Scaling阶段)。每单位算力投入的得分回报率仅为前代模型的1/70,验证Scaling Law的边际效应已逼近当前架构下的物理极限。
指标 | DeepSeek V3 | Grok-3 | 边际效应系数 |
GPU数量(H系列) | 2000 H800 | 200,000 H100 | 100x |
训练时长 | 2个月 | 7个月(两阶段) | 3.5x |
总算力消耗(FLOPs) | ~4.8e23 | ~1.28e25 | 26.67x |
榜单得分提升 | 基础模型(1300) | +100(→1400) | 0.38% ROI |
除此之外,Grok3还存在榜单争议与实用性短板,部分评测被质疑针对特定任务优化。OpenAI联合创始人Andrej Karpathy评价其表现“略优于DeepSeek-R1,但未解决幻觉问题”。而在Grok 3在演示中也多次出现代码生成错误。
二.DeepSeek的算法突围路径
1. 技术路线差异
- 强化学习优化推理:DeepSeek-R1通过群体强化学习实现“顿悟”,在数学任务上达到OpenAI o1水平,训练成本仅为同类模型的1/10。
- 混合专家模型(MoE):DeepSeek-V3通过动态参数激活,以557.6万美元成本实现与Grok 3相近的代码生成能力。
以上为此前deepseek官方公布的技术论文的简单介绍,而后就在2月19日,也就是今天,梁文峰团队再次发布新论文,涉及了全新的长文本处理NSA技术:
- 动态训练策略:据其最采用Test-time Scaling Law(推理阶段动态调整模型规模),相较Grok-3的预训练Scaling,算力利用率提升达6-8倍。
- 稀疏注意力机制:最新论文提出的NSA技术将64k长文本处理速度提升11.6倍,且性能超越全注意力模型。

- 混合优化算法:引入AGI-oriented Loss Redesign,在同等参数量下提升长程依赖建模能力(需消耗算力仅为传统方法的15%)。
2. 战略选择优势
- 性价比导向:以V3为例,其单位算力得分产出率为Grok-3的22.3倍;
- 架构可扩展性:通过算法压缩模型推理成本,支持千卡级集群实现万卡级效果。
指标 | Grok 3 | DeepSeek-R1 |
训练成本 | 30亿美元 | 557万美元 |
GPU数量 | 20万块H100 | 2048块H800 |
数学推理得分(AIME) | 52 | 39 → 48 |
单位成本性能提升 | 1x基准 | 5.8x |
3. 开源生态
- DeepSeek通过开源策略吸引20万开发者,同时Deepseek的V3和R1模型已集成至微信、百度等应用,而Grok 3仍为闭源且依赖X平台订阅。这种“技术普惠”模式更符合AGI的“人人可用”愿景。
三.AGI竞争新维度
AGI未来核心战场将转向:
- 数据合成与清洗效率;
- 物理世界具身学习;
- 能耗约束下的算法创新。
Grok 3证明了算力堆砌仍能推动性能提升,但其边际效应已接近极限。相比之下DeepSeek通过算法与架构创新,在1/500成本下实现可比性能,且开源生态加速技术民主化。Grok-3标志着暴力Scaling时代的终章,而DeepSeek的算法突破验证了“智能密度>算力密度”的新范式:AGI的未来属于低成本、高泛化性的算法突破,而非单纯依赖硬件扩张。
这是中国AI实现非对称超车的战略窗口期。中国AI企业在此方向的领先,为全球AGI发展提供了新范式。
📎 参考文章
- 1. “地表最强”Grok 3震撼登场,马斯克演示却“小翻车”,网友调侃:加上擎天柱才是AGI!几个月后还将开源!
- 2. 何为GROK3?它的意义何在
- 3. 理性的分析一下马斯克花了20万块GPU炼出的Grok-3
- 4. Grok 3的核心技术亮点
- 5. LIVE马斯克“地表最强AI”grok3问世与最新研究报告
- 6. Grok3:AI 领域的新星与挑战
- 7. 马斯克发布 “史上最聪明 AI” Grok-3,号称超越 DeepSeek R1,20 万张 GPU 能否颠覆 AI 格局?
- 8. 英伟达一夜回血!马斯克狂烧30亿GPU给老黄续命,10倍算力创Scaling Law神话
- 9. 目前对Grok 3分析最为透彻的一篇文章
- 10. 20万张GPU!号称“地球上最聪明的AI”Grok-3来了,斩获多个Top1,网友:算力消耗是DeepSeek V3的263倍
- 11. 20万张GPU“烧出”地表最强 AI?马斯克的Grok 3超1400分登顶排行榜,OpenAI联合创始人:略强于 DeepSeek-R1_模型_图片_演示
- 12. 马斯克"地表最聪明"大模型Grok-3发布,多个排行榜第一
- 13. 果不其然!才过几天,世界第一易主!
- 14. Xai最新Grok-3系列模型解析:推理能力、Deep Search、性能对比
- 15. 一文读懂马斯克的Grok 3
- 16. Grok-3 今日登场,评分全面屠榜,直接干碎 OpenAI?
- 17. 马斯克发布最新一代大模型Grok 3,多模态AI或改变未来出行体验
- 18. 马斯克旗下Grok3问世:超强算力技术突破与未来趋势
- 19. 梁文锋亲自参与,DeepSeek发重磅论文
- 20. 清华学姐解读deepseek论文:「DeepSeek-R1:通过强化学习增强大语言模型推理能力的创新解析」-CSDN博客
- 21. DeepSeek如何通过三项创新论文重塑全球AI竞争格局_模型_训练_语言
- 22. 超过o1-mini、逼近o3-mini,DeepSeek-R1在新的贪吃蛇基准上拿下1801分
- 23. 有趣的数据:DeepSeek R1的低成本奇迹——557万美元如何改变AI行业?
- 24. 深度求索DeepSeek概念重点名单一览_知乎
有关Notion安装或者使用上的问题,欢迎您在底部评论区留言,一起交流~
- 作者:伊洺
- 链接:http://github.com/article/grok3
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。













