DeepSeek V3
一款采用 Mixture-of-Experts 架构、拥有 6710 亿参数的开源大语言模型,兼具高效能与卓越 AI 任务表现。
DeepSeek V3 是一款先进的 AI 大语言模型(LLM),采用 Mixture-of-Experts(MoE)架构,总参数量达 6710 亿,每个 token 仅激活 370 亿参数,实现高效资源利用与卓越性能。模型在 14.8 万亿高质量 token 上预训练,具备复杂推理、编程、多语言理解及 128K 长上下文处理能力。集成多头潜变量注意力(MLA)、多 token 预测、无辅助损失负载均衡等创新技术,推理与训练效率媲美主流闭源模型(如 GPT-4)。支持多种部署框架和硬件平台,可通过 API、网页版或本地部署访问。