作者|子川

来源|AI先锋官

开源界的扛把子——微软一口气又又又开源了3款Phi-3.5新模型。

38.2亿参数的Phi-3.5-mini-instruct

419亿参数的Phi-3.5-MoE-instruct

41.5亿参数的Phi-3.5-vision-instruct

据说这三兄弟个个能力非凡。虽然只是三款"小模型"。但是它们在多项第三方基准测试中表现出色,甚至在某些测试中超越了谷歌的Gemini 1.5 Flash、Meta的Llama 3.1,尤其在一些特别的场景还击败了OpenAI的GPT-4o。可不是mini。

“小模型”都能比GPT-4o厉害?

老大 Phi-3.5 MoE:专家大集合

Phi-3.5 MoE(Mixture of Experts)模型,这类模型是微软首次推出的。它采用了”专家混合“的设计理念,将多个不同的模型类型组合成一个,其中每个模型类型专门从事不同的任务。

Phi-3.5-MoE在基准测试中,能力表现不俗。在多项测试中击败Llama-3.1-8B-instruc,Gemma-2-9b-It等模型,仅次于GPT-4o-mini。在5个单项的MMLU测试中,更是击败了GPT-4o mini!成功问鼎。

Phi-3.5-MoE模型还支持处理长达128K的上下文,与只能处理8K上下文的Gemma-2系列模型相比,Phi-3.5-MoE显然是更胜一筹。

目前已经可以和Llama-3.1-8B-instruct和Mistral-Nemo-12B-instruct-2407等“大”模型掰掰手腕啦。

Phi-3.5-MoE 在多语言 MMLU、MEGA 和 MMLU-pro 数据集上表现还不错。仅次于GPT-4o-mini。

总的来说,Phi-3.5-MoE这个模型虽然只有6.6亿个活动参数,但在理解和数学能力上可以和大AI模型相比较啦。而且在逻辑推理能力上更是仅次于GPT-4o-mini。

研究员指出,因为Phi-3.5-MoE的体积小,所以它记不住太多事实,有时候可能会出错。但是,如果把搜索引擎和它结合起来用,特别是在RAG模式下,这个问题就能解决。

老二 Phi-3.5-Mini:小巧而强大

在三款模型中,Phi-3.5-Mini Instruct特别引人注目。只有38亿参数,但它在多语言处理和多轮对话等任务中表现出色。

更令人惊讶的是,它在RepoQA基准测试(衡量长文本代码理解能力)中甚至超越了参数量更大的模型,如Llama-3.1-8B-instruct和Mistral-7B-instruct。

相对而言,Phi-3.5 Mini Instruct在多语言MMLU、MEGA和多语言MMLU-pro数据集上的多语言能力表现较弱。但是考虑Phi-3.5 Mini Instruct只有38b的活动参数,总的来说表现还算凑合。

Phi-3.5-Mini Instruct同样也支持 128K 上下文长度。能力表现上和Phi-3.5-MoE模型并无太大差别。

不过Phi-3.5-Mini Instruct在长上下文代码理解的基准里,还是取得不错的成绩的。

三弟 Phi-3.5 Vision:视觉AI的新突破Phi-3.5-vision-instruct模型是这个系列中专门针对视觉任务设计的模型。尽管只有41.5亿参数,但它在图像和视频分析方面展现出惊人的能力。这个模型在某些视觉任务上的表现甚至可以与GPT-4o相媲美。Phi-3.5 Vision在基准测试中,在某些领域还击败了GPT4o,可不是mini。

在视频处理能力方面,Phi-3.5-vision与领先的几个模型相比,仍有比较大的进步空间,但得分也都基本超过了InternVL模型。

虽然大家对他们的能力有不同的评价,褒贬不一,但不得不说,微软这次确实又开放了一个不错的模型。

微软这次推出的Phi-3.5系列模型,不仅技术上有所突破,更重要的是,它代表了一种新的AI技术共享精神。这种开放性将大大推动AI技术的进步和实际应用。

建议投票微软改名“OpenAI"

扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。

往期文章回顾