deepseekv3技术报告解读_deep科技

admin2019 2025-04-03 18:18:11 电脑数码

小中大

# DeepSeek V3：大模型领域的新曙光
在大语言模型（LLM）这片竞争激烈的“战场”上，DeepSeek V3 的登场宛如一颗重磅炸弹，搅乱了原有的格局。2024 年 12 月 26 日，这款由中国公司深度求索（DeepSeek）打造的模型一经发布，便凭借高性能与低成本的显著优势，迅速在 AI 圈引发热议。

从架构与参数上看，DeepSeek V3 采用混合专家（MoE）架构，总参数高达 6710 亿，成为目前最大的开源模型。然而它巧妙之处在于，每个 token 仅激活 370 亿参数，这不仅大大提升了推理速度，还实现了资源的高效利用，恰似为模型打造了一条畅通无阻的“信息高速公路”。

谈及训练成本与效率，DeepSeek V3 更是堪称“性价比之王”。仅需 557 万美元的训练成本，约为 GPT - 4 等模型 1 亿美元的二十分之一；训练计算量仅 280 万 GPU 小时，在 2048 个 H800 GPU 集群上，3.7 天/万亿 tokens 就能完成训练，如此高效着实令人惊叹。这就好比用“白菜价”打造出一辆高性能“跑车”，怎能不吸引眼球？

性能表现上，DeepSeek V3 在多个领域可谓多点开花。知识类任务中，MMLU、MMLU - Pro 等测试显示，其表现显著提升，直逼当前顶尖的 Claude - 3.5 - Sonnet - 1022；长文本测评里，DROP、FRAMES 等场景下平均表现超越其他模型；代码领域，算法类（Codeforces）远远领先非 o1 类模型，工程类（SWE - Bench Verified）也逼近 Claude - 3.5 - Sonnet - 1022；数学方面，在 AIME 2024、CNMO 2024 竞赛中大幅超过所有开源闭源模型。中文能力上，教育类测评 C - Eval 和代词消歧与 Qwen2.5 - 72B 相近，事实知识 C - SimpleQA 更为领先。

生成速度上，DeepSeek V3 同样实现了飞跃，从 20TPS 大幅提升至 60TPS，达到原来的 3 倍，为用户带来流畅如飞的体验。模型费用方面，虽有新价格，但在 2 月 8 日之前，仍保持优惠价，输入 1 元/百万 tokens，输出 2 元/百万 tokens，缓存命中 0.1 元/百万 tokens，十分亲民。

使用层面，64K 上下文长度依旧支持，最大输出升级到 8K，未来还可能支持多模态，目前可在高通智匠（MindCraft AI）平台使用并支持 API 调用，为开发者与用户提供了极大便利。

当然，DeepSeek V3 并非十全十美，如在英文双关语理解上还有提升空间。但瑕不掩瑜，它的出现，为大模型领域注入了新活力，无论对开源社区还是整个 AI 行业的发展，都有着深远意义，值得持续关注。

» 转载保留版权：百科全库网 » 《deepseekv3技术报告解读_deep科技》

» 本文链接地址：https://baikequanku.com/archives/102051.html