算半个内行吧。
粗略看了一下Deepseek v3 的技术报告,多个指标上比上一代v2版本提升明显,主要是在推理领域,包括Codeference和MATH 500测试集上,成为了新一代的开源SOTA模型,不仅超越了Llama v3.1 45B,甚至可以与闭源的GPT 4o、Claude 3.5 Sonnet进行比较。
技术报告中展示了几项关键技术细节,一是MLA(Multi-head Latent Attention,多头隐空间注意力机制),通过在解码部分对隐向量信息进行压缩,加快了整体的解码的速度。这一项技术在V2 版本已经得到验证。
二是为DeepSeek V3 引入了一种Auxiliary-Loss-Free Load Balancing(辅助无损耗的负载平衡策略),以确保防止在专家知识路由的时候因负载不平衡导致的性能下降。
三是在训练过程中,V3提出了一种MTP(多Token预测)训练目标,即是当前Token编码结果不仅需要预测当前的输出,还需要对未来的输出进行预测。
在 DeepSeek-V3 中启用长上下文功能。在预训练阶段之后,应用 YaRN 进行上下文扩展,并执行两个额外的训练阶段,每个阶段包含 1000 个 step,以逐步将上下文窗口从 4K 扩展到 32K,然后再扩展到 128K。通过这种两阶段扩展训练,DeepSeek-V3 能够处理长达 128K 的输入。由于高效的架构和全面的工程优化,DeepSeekV3 实现了极高的训练效率。基于训练框架和基础设施,在 V3 上训练每万亿个 token 只需要 180K H800 GPU 小时,比训练 72B 或 405B 密集模型便宜得多。