



近年来,生成式 AI 发展迅速,从 2014 - 2024 年取得诸多关键突破,如 Attention 机制用于数据依存关系建模、Transformer 成为数据生成统一架构、Scaling Laws 揭示数据学习和生成扩展法则、RLHF 实现生成与人类价值对齐的数据、o1/R1 用于生成式求解问题。在这一背景下,大语言模型也不断演进,从早期发展历经多次起伏,到 2018 - 2024 年众多模型涌现。其技术栈涵盖应用层、模型训练、数据处理和管理、硬件与软件等多个层面,生命周期包括数据处理、训练范式、应用部署等阶段,后训练范式有不同的实现方式,且成本差异较大。
DeepSeek 在大语言模型领域表现突出。从 2023 年起陆续推出 DeepSeek V1、R1 - Lite、R1、V2、V3 等版本。V2 主要创新在于 DeepSeekMoE 和 MLA,通过稀疏激活降低计算成本,相比传统 MoE 采用细粒度专家设计并对路由和通信进行改造,同时 MLA 实现低秩压缩,减少 KV cache 占用空间。在训练开销、存储开销和生成速度方面优势明显,如相比其他模型,在性能相当的情况下,训练开销大幅降低,存储开销减少 93.3% ,生成速度更快。V3 进一步创新,在基础设施方面减少流水线气泡、实现高效节点间 All - to - All 通信、采用 FP8 训练和低精度存储与通信,还引入 Multi - Token Prediction(MTP)一次预测多个 token。其训练成本相对较低,仅需 2788K H800 GPU 小时,约 557.6 万美元,相比 Llama 3 405B 使用的 3080 万 GPU 小时,计算量减少约 11 倍 ,但模型性能更强。
DeepSeek R1 在推理模型上有诸多创新。采用大规模 RL 训练,发现 RL 训练的 Scaling Laws,训练规模大,业内通常训练几十 RL steps,而 DeepSeek 训练几千 RL steps,训练过程中自动涌现搜索、反思等能力。通过 4 步法有效解决 R1 - Zero 存在的问题,将推理与对齐合为一体。强化学习训练框架 GRPO 来自 DeepSeekMath,降低了训练成本,采用蒙特卡洛估算取代 Value 模型,减少计算和存储开销。推理模型蒸馏技术可将大模型推理能力蒸馏到小模型,效果优于小模型直接进行推理训练。在逻辑推理性能上,DeepSeek - R1 表现出色,如在多个测试中,其 API 版本逻辑推理准确率达 76.10% ,网页版本平均思考时间在不同难度题目上虽有差异,但整体表现良好。
DeepSeek 的出现产生了多方面效应。在算力价格战方面,其高性价比产品打破了数百亿美元构建的前沿技术护城河,给市场带来冲击。开源方面,R1 的开源发布是大模型开源史上的里程碑,打破了美国 AI 第一梯队企业的技术封闭,同时也引发了关于开源与闭源以及 AI 安全治理的讨论。在认知方面,颠覆了美国人对中国 AI 水平的认知,也改变了人们对大模型研发成本的看法。此外,DeepSeek 的成功得益于其拥有足够多敢于创新的技术型人才和有效的人才管理,这也凸显了人才在大模型底层技术创新中的关键作用。
从未来展望来看,实现 AGI 可能还需要 3 - 5 个重大突破,目前处于技术路线逐渐明确的阶段,不同阶段有不同的技术突破方向和应用场景。DeepSeek 具有快速迭代推理大模型的优势,R2 可能很快发布,R1 主要聚焦数学、代码、逻辑推理,未来需在更多领域进行 RL 训练以成为通用的问题求解器。在模型安全方面,现阶段 DeepSeek R1 虽因注重推理能力提升导致安全性有所降低,但模型安全和推理并不冲突,其推理能力可应用于加强大模型安全,未来需要创新解决方案来平衡两者关系。