
引言
2025年4月6日,HuggingFace 正式发布了 Transformers v4.51.0,本次更新堪称 AI 界的“超级大礼包”!不仅新增了 Meta 的 Llama 4、微软的 Phi4-Multimodal、深度求索的 DeepSeek-V3 以及 Qwen3 四大重量级模型,还优化了多项功能,修复了诸多 Bug,让 AI 开发者们直呼“真香”!
本文将深入解析 v4.51.0 的核心更新,包括:
- 1. Llama 4:Meta 最新 MoE 架构,支持多模态输入2. Phi4-Multimodal:轻量级多模态模型,支持文本、图像、语音3. DeepSeek-V3:超强 MoE 语言模型,训练成本大幅降低4. Qwen3:阿里通义千问最新架构,即将发布5. 其他重要改进与 Bug 修复
如果你是 AI 开发者、研究人员,或者对前沿 AI 技术感兴趣,这篇文章绝对不容错过!
1. Llama 4:Meta 最新 MoE 架构,支持多模态输入
1.1 两大版本:Maverick 和 Scout
Meta 此次推出的 Llama 4 采用了 混合专家(Mixture-of-Experts, MoE)架构,并分为两个版本:
- • Llama 4 Maverick:17B 激活参数,总参数量约 400B,128 个专家• Llama 4 Scout:17B 激活参数,总参数量约 109B,16 个专家
两者均支持 多模态输入(文本+图像),并在 200 种语言数据上进行了训练,其中 12 种语言(如阿拉伯语、西班牙语、德语、印地语)进行了专门的微调。
1.2 部署方式
- • Scout 适用于单张服务器级 GPU,支持 4-bit/8-bit 量化,适合轻量级部署。• Maverick 提供 BF16 和 FP8 格式,适合高性能计算场景。
1.3 代码示例:多模态推理
from transformers import AutoProcessor, Llama4ForConditionalGeneration
import torch
model_id = "meta-llama/Llama-4-Maverick-17B-128E-Instruct"
processor = AutoProcessor.from_pretrained(model_id)
model = Llama4ForConditionalGeneration.from_pretrained(
model_id,
attn_implementation="flex_attention",
device_map="auto",
torch_dtype=torch.bfloat16,
)
url1 = "https://example.com/rabbit.jpg"
url2 = "https://example.com/cat.png"
messages = [
{
"role": "user",
"content": [
{"type": "image", "url": url1},
{"type": "image", "url": url2},
{"type": "text", "text": "描述这两张图片的异同?"},
]
},
]
inputs = processor.apply_chat_template(messages, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=256)
response = processor.batch_decode(outputs)[0]
print(response)
运行方式:
torchrun --nproc-per-instance=8 script.py # 需要 8 张 GPU
2. Phi4-Multimodal:轻量级多模态模型,支持文本、图像、语音
2.1 模型特点
- • 支持文本、图像、音频输入,输出为文本• 128K 上下文长度,适用于长文本任务• 采用 监督微调(SFT)+ 直接偏好优化(DPO)+ RLHF 训练,确保安全性和指令遵循能力
2.2 多语言支持
模态支持语言文本阿拉伯语、中文、英语、法语、德语等 23 种视觉英语音频英语、中文、德语、法语、日语等 8 种
2.3 适用场景
- • 多模态对话(如 ChatGPT 视觉版)• 语音转文本(ASR)• 跨语言翻译
3. DeepSeek-V3:超强 MoE 语言模型,训练成本大幅降低
3.1 核心亮点
- • 671B 总参数,37B 激活参数(MoE 架构)• 采用 多头潜在注意力(MLA) 和 DeepSeekMoE 架构,训练效率极高• 仅需 2.788M H800 GPU 小时(相比同类模型大幅降低)• 训练过程极其稳定,无损失尖峰或回滚
3.2 性能表现
在多项基准测试中,DeepSeek-V3 超越开源模型,接近闭源顶级模型(如 GPT-4)。
3.3 适用领域
- • 大规模 NLP 任务(文本生成、代码补全)• 企业级 AI 应用(客服、数据分析)
4. Qwen3:阿里通义千问最新架构
虽然 Qwen3 的模型尚未正式发布,但 Transformers v4.51.0 已支持其架构,预计阿里很快会推出新版本。
4.1 预期特性
- • 更强的 长文本理解能力• 优化 多轮对话 和 代码生成• 可能支持 多模态输入
5. 其他重要改进与 Bug 修复
5.1 文档优化
- • 新增 大量可直接复用的代码示例,方便开发者快速上手
5.2 关键 Bug 修复
- • 修复 Gemma3 图像处理问题• 优化 FP8 权重加载(如 DeepSeek-V3)• 修复 Llama 缓存机制问题
总结
HuggingFace/Transformers v4.51.0 的发布,标志着 AI 开源生态的又一次飞跃!
- • Llama 4 带来更强大的多模态 MoE 模型• Phi4-Multimodal 让轻量级多模态 AI 触手可及• DeepSeek-V3 以低成本实现顶级性能• Qwen3 蓄势待发,或将再次刷新中文 AI 表现
如果你是 AI 开发者,赶快升级体验吧!
pip install -U transformers[hf_xet]
未来,AI 的边界在哪里?HuggingFace 正在一步步给出答案! 🚀