深度解读DeepSeek原理与效应

深度解读DeepSeek原理与效应

小花
2025-02-14 15:52:08
报告围绕大语言模型展开,介绍其发展历程,从早期的达特茅斯会议、AI 寒冬,到生成式 AI 兴起,如 2014 - 2024 年出现 Attention、Transformer 等关键技术。大语言模型技术栈涵盖多方面,有独特的生命周期与范式,后训练范式成本差异大。DeepSeek 自 2023 年推出多个版本,V2 通过 DeepSeekMoE 和 MLA 创新,在训练开销、存储开销和生成速度上表现优异,存储开销减少 93.3% ;V3 进一步创新,训练成本仅 2788K H800 GPU 小时,约 557.6 万美元,相比 Llama 3 405B 计算量减少约 11 倍 。R1 在推理模型上创新,采用大规模 RL 训练,4 步法优化,GRPO 降低成本,推理能力蒸馏效果好,在逻辑推理测试中 API 版本准确率达 76.10% 。DeepSeek 产生多种效应,打破技术护城河,推动开源发展,改变认知。未来实现 AGI 预计还需 3 - 5 个重大突破,DeepSeek 迭代快,R2 有望很快发布,同时在模型安全与推理平衡上有待创新。
报告来源:
天津大学
相关词条:
下载报告
报告预览
报告简介
免费下载
免费下载
小程序
小程序
小程序
交流群
交流群
交流群
回到顶部