引言

2025年4月6日,HuggingFace 正式发布了 Transformers v4.51.0,本次更新堪称 AI 界的“超级大礼包”!不仅新增了 Meta 的 Llama 4、微软的 Phi4-Multimodal、深度求索的 DeepSeek-V3 以及 Qwen3 四大重量级模型,还优化了多项功能,修复了诸多 Bug,让 AI 开发者们直呼“真香”!

本文将深入解析 v4.51.0 的核心更新,包括:

    1. Llama 4:Meta 最新 MoE 架构,支持多模态输入2. Phi4-Multimodal:轻量级多模态模型,支持文本、图像、语音3. DeepSeek-V3:超强 MoE 语言模型,训练成本大幅降低4. Qwen3:阿里通义千问最新架构,即将发布5. 其他重要改进与 Bug 修复

如果你是 AI 开发者、研究人员,或者对前沿 AI 技术感兴趣,这篇文章绝对不容错过!

1. Llama 4:Meta 最新 MoE 架构,支持多模态输入

1.1 两大版本:Maverick 和 Scout

Meta 此次推出的 Llama 4 采用了 混合专家(Mixture-of-Experts, MoE)架构,并分为两个版本:

    • Llama 4 Maverick:17B 激活参数,总参数量约 400B,128 个专家• Llama 4 Scout:17B 激活参数,总参数量约 109B,16 个专家

两者均支持 多模态输入(文本+图像),并在 200 种语言数据上进行了训练,其中 12 种语言(如阿拉伯语、西班牙语、德语、印地语)进行了专门的微调。

1.2 部署方式

    • Scout 适用于单张服务器级 GPU,支持 4-bit/8-bit 量化,适合轻量级部署。• Maverick 提供 BF16 和 FP8 格式,适合高性能计算场景。

1.3 代码示例:多模态推理

from transformers import AutoProcessor, Llama4ForConditionalGeneration import torch model_id = "meta-llama/Llama-4-Maverick-17B-128E-Instruct" processor = AutoProcessor.from_pretrained(model_id) model = Llama4ForConditionalGeneration.from_pretrained( model_id, attn_implementation="flex_attention", device_map="auto", torch_dtype=torch.bfloat16, ) url1 = "https://example.com/rabbit.jpg" url2 = "https://example.com/cat.png" messages = [ { "role": "user", "content": [ {"type": "image", "url": url1}, {"type": "image", "url": url2}, {"type": "text", "text": "描述这两张图片的异同?"}, ] }, ] inputs = processor.apply_chat_template(messages, return_tensors="pt").to(model.device) outputs = model.generate(**inputs, max_new_tokens=256) response = processor.batch_decode(outputs)[0] print(response)

运行方式:

torchrun --nproc-per-instance=8 script.py # 需要 8 张 GPU

2. Phi4-Multimodal:轻量级多模态模型,支持文本、图像、语音

2.1 模型特点

    • 支持文本、图像、音频输入,输出为文本• 128K 上下文长度,适用于长文本任务• 采用 监督微调(SFT)+ 直接偏好优化(DPO)+ RLHF 训练,确保安全性和指令遵循能力

2.2 多语言支持

模态支持语言文本阿拉伯语、中文、英语、法语、德语等 23 种视觉英语音频英语、中文、德语、法语、日语等 8 种

2.3 适用场景

    • 多模态对话(如 ChatGPT 视觉版)• 语音转文本(ASR)• 跨语言翻译

3. DeepSeek-V3:超强 MoE 语言模型,训练成本大幅降低

3.1 核心亮点

    • 671B 总参数,37B 激活参数(MoE 架构)• 采用 多头潜在注意力(MLA) 和 DeepSeekMoE 架构,训练效率极高• 仅需 2.788M H800 GPU 小时(相比同类模型大幅降低)• 训练过程极其稳定,无损失尖峰或回滚

3.2 性能表现

在多项基准测试中,DeepSeek-V3 超越开源模型,接近闭源顶级模型(如 GPT-4)。

3.3 适用领域

    • 大规模 NLP 任务(文本生成、代码补全)• 企业级 AI 应用(客服、数据分析)

4. Qwen3:阿里通义千问最新架构

虽然 Qwen3 的模型尚未正式发布,但 Transformers v4.51.0 已支持其架构,预计阿里很快会推出新版本。

4.1 预期特性

    • 更强的 长文本理解能力• 优化 多轮对话 和 代码生成• 可能支持 多模态输入

5. 其他重要改进与 Bug 修复

5.1 文档优化

    • 新增 大量可直接复用的代码示例,方便开发者快速上手

5.2 关键 Bug 修复

    • 修复 Gemma3 图像处理问题• 优化 FP8 权重加载(如 DeepSeek-V3)• 修复 Llama 缓存机制问题

总结

HuggingFace/Transformers v4.51.0 的发布,标志着 AI 开源生态的又一次飞跃!

    • Llama 4 带来更强大的多模态 MoE 模型• Phi4-Multimodal 让轻量级多模态 AI 触手可及• DeepSeek-V3 以低成本实现顶级性能• Qwen3 蓄势待发,或将再次刷新中文 AI 表现

如果你是 AI 开发者,赶快升级体验吧!

pip install -U transformers[hf_xet]

未来,AI 的边界在哪里?HuggingFace 正在一步步给出答案! 🚀