DeepSeek 是一家专注于人工智能领域的公司,主要从事以下几方面工作:
DeepSeek LLM:DeepSeek 发布的首个大模型,包含 670 亿参数,从零开始在包含 2 万亿 token 的数据集上进行训练,数据集涵盖中英文。其 7B/67B Base 和 7B/67B Chat 版本全部开源,67B Base 在推理、编码、数学和中文理解等方面超越了 Llama2 70B Base,67B Chat 在编码和数学方面表现出色,在中文表现上超越了 GPT-3.5。
DeepSeek-V2:拥有 2360 亿参数,每个 token 有 210 亿个活跃参数。中文综合能力在众多开源模型中最强,超过 GPT-4,与 GPT-4-Turbo、文心 4.0 等闭源模型在评测中处于同一梯队;英文综合能力与 LLaMA3-70B 处于同一梯队,超过最强 MoE 开源模型 Mixtral8x22B。
DeepSeek-V3:一个 6710 亿参数的专家混合模型,激活参数 370 亿,在 14.8 万亿 token 上进行了预训练。多项评测成绩超越 Qwen2.5-72B 和 Llama-3.1-405B 等开源模型,在知识类任务上的水平相比前代 DeepSeek-V2.5 显著提升,在生成速度上相比 V2.5 模型实现了 3 倍的提升,达到 60TPS。
DeepSeek-R1:在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。在国外大模型排名 Arena 上,DeepSeek-R1 基准测试升至全类别大模型第三,在风格控制类模型分类中与 OpenAI o1 并列第一。
DeepSeek Coder:由一系列代码语言模型组成,每个模型均从零开始在 2 万亿 token 上训练,数据集包含 87% 的代码和 13% 的中英文自然语言,模型尺寸从 1B 到 33B 版本不等。在多种编程语言和各种基准测试中达到了开源代码模型的最先进性能,支持项目级代码补全和填充。
DeepSeek-Coder-V2:一个开源的混合专家代码语言模型,在代码特定任务中达到了与 GPT4-Turbo 相当的性能。将支持的编程语言从 86 种扩展到 338 种,并将上下文长度从 16K 扩展到 128K,在编码和数学基准测试中表现优异,超越了 GPT4-Turbo、Claude 3 Opus 和 Gemini 1.5 Pro 等闭源模型。
DeepSeekMath:以 DeepSeek-Coder-v1.5 7B 为基础,在从 Common Crawl 中提取的数学相关 token 以及自然语言和代码数据上进行预训练,训练规模达 5000 亿 token。在竞赛级 MATH 基准测试中取得了 51.7% 的优异成绩,接近 Gemini-Ultra 和 GPT-4 的性能水平。
DeepSeek-VL:一个开源的视觉 - 语言模型,采用了混合视觉编码器,能够在固定的 token 预算内高效处理高分辨率图像,同时保持相对较低的计算开销。其 1.3B 和 7B 模型在相同模型尺寸下,在广泛的视觉 - 语言基准测试中达到了最先进或可竞争的性能。