T发展之22: atGPT成功面世,M里程碑式胜利2年是OpenI公司GT系列模型演进的重要节点2年1月OpnI发布生成式对话机器人ChaGT上线仅2个月月活用户数已突破1亿成为历史上用户增长最快的消费者应用。回顾大语言模型(Lrge Lanuage Mde,M)的发展历史,可以发现与GogFaceBok等公司不同OpnI从G-1开始始终贯彻Decoer-oly的技术路径-222年GT系列模型几乎按照每年一代的速度不断升级迭代我们认为2年ChaGT的成功面世是M里程碑式的胜利未来围绕M的技术升级、应用拓展有望加速开启。2 年OpenI 加速GT 模型的版本迭代,ChatT 融合多技术优势。通梳理GT 系列模型的演进过程,可以看到2年是GT系列模型围绕G-、G-5加速版本 迭代的年份2年3月基于G-3微调的InstructGT发布验证了人类反馈强化学 习RLHF对模型输出对(agmet的重要作用2年-6月基于CodxInstuctGT, OpnAI加速迭代形成G5模型2年1月基于G-5微调的ChaGT发布, 成为Instructon-tunRLHF思维链等M相关技术的集大成者我们认为ChaGT 是OpnI基于GT系列模型的阶段性成果未来随底层大模型的持续拓展I产业发展 或将提速。图表:2 年基于rnsormr的M梳理及2年PT模型的版本迭代资料来源:OAI官网、Gole官网、CSDN、atGPT / Isrt:增加人类反馈强化学习()优化目标:从提示学习到指示学习,聚焦需求对齐(aignment)从模型微调到提示学习再到指示学习,GT 模型零次学习能力不断提升。2 年论文《FntunedLagugeModsreZero-hotLarnrs提出指示学(Instructon-tuin)思想,以提升模型的零次学习能力。对比来看:1)模型微调(Fine-tuning:以 G-1为代表,需要大量的微调数据集样本,特定模型解决特定任务;2)提示学习(ompt-lening:以 G-3 为代表,需要少量的微调数据样本,模型小样本学习(fe-shtLernng能力更强指示学(Instuction-lening以FLNInstructGT、 ChaGT为代表,模型通过下游多类型任务的指示微调,零次学习(er-sht Lerning)能力更强;同时,提示学习与指示学习均为一个模型解决多类任务。图表:模型微调(inuin)、提示学习(rmplrin)、指学习(nsruinunn)对比资料来源:《intud Lgae odlsae eosht ans》,Json Wi(2)、聚焦模型输出与人类需求对齐引入人类反馈强化学习GT系列模型发展至G-经在翻译、问答、摘要等任务上取得了良好的性能,研究者开始更加关注模型生成内容的有用性(Hepful、真实性(Honst、无害性(Hamess,希望实现模型输出内容与人类偏好内容的需求对齐(agmet。为提升模型的“H”特性,从 InstructGT 开始, InstructGT、ChaGT均引入人类反馈强化学习(Rnforcemet Larning from Human Fedback,RLHF,实现基于人类反馈的模型微调,让模型输出更符合人类期待。图表:InsruGPT的“”优化目标资料来源:《Trininglagaemols ofllowistctis ith hmnfebck》,og Ouan(2)、人类反馈可作为强化学习的奖励通过引入语言模型微调可使模型输出与人类需求对齐。从技术原理来看,强化学习通过奖励(Reard)机制来指导模型训练,奖励机制可视为统训练机制的损失函数同时奖励的计算要比损失函数更灵活多(例如 phaGO 奖励是对局的胜负代价是奖励计算不可导不能直接用来做反向传播强化学习的思路是通过对奖励的大量采样来拟合损失函数,从而实现模型的训练。类似的,人类反馈也不可导,也可以作为强化学习的奖励,从而产生基于人类反馈的强化学习。图表:人类反馈强化学习(L)基本原理资料来源:《Dp Rifocmet ering rm Hmn Pefencs》,Pal FCistino(21)、训练过程“三步走”实现人工反馈强化学习ChatGT 与InstuctGT的训练方法基本一致。解ChaGT 与InstructGPT 的优化目标之后,我们需要进一步梳理模型的具体训练过程。对比论文《ranngangugemoes tofoownstructiosthhumanfedack(中的InstructGT训练方法与OpnAI官方发布的ChaGT训练方法我们看到ChaGT与InstructGT的训练方法基本一致,区别在于InstructGTChaGT分别基于G-G5进行模型微调考虑到htGT尚未有官方论文发布我们以InstructGT论文为基准对InstructGT的训练过程进行了详细梳理,具体可分为有监督微调、奖励模型训练、O强化学习三个步骤。图表:haGPT与InsruPT的训练方法基本一致注:图中蓝色部分为strctPT训练示意、粉色部分为CatPT训练示意资料来源:OAI官网、《Tiniglaugemdlstofllowistctis ithhmn febck》,LngOuag(2)、步骤一:有监督微调(T)训练使用人工标注数据对G3进行有监督微调(upevied fine-tuning,T)训练。由于G-3 是基于提示学习的生成模型,因此FT 模型的数据集也是由提示答复对组成的样本。为实现模型从提示学习向指示学习跨越,OpnI 采用人工编写多类别提示的方法对G-3模型进行有监督微调。首先,OpnI委托标注员(0人标注团队)人工设计了包含三类内(简单任务f-sht任务基于用户需求的任务的提示样本prmptdtaset;其次,委托标注团队对 prmpt dtaset 进行标注(本质上是人工回答问题,由此构成提示答复对数据集;最后,用标注过的数据集微调 G-,得到FT模型。图表:有监督微调(F)训练过程示意图资料来源:《llstrtingRinfcmt eig frm Hmn Feack RLH)》,Natan mbr(22)、FT 数据集数据量较小,数据质量、多样性更加重要。根据InstructGT 论文中提供的数据显示,FT 数据集一部分来自使用OpnI 的aGrond 的I 用户,另一部分来自 OpnI雇佣的0名标注(aeler其中训练数据大小仅约为(来自标注员的数据约为、来自I 用户的数据约为。考虑到InstructGT 是在G-3 的基础上进行模型微调,G-3 已经具备较好的文本生成能力,FT 数据集的质量、多样性对于提升模型性能来说更为重要。图表:有监督微调(F)数据集来源及大小资料来源:《Trininglagaemols ofllowistctis ith hmnfebck》,og Ouan(2)、数据多样性以InstrucGT论文披露的奖励模型M数据集为(未披露FT数据集任务分类占比,RM 数据集包括文本生成、开放式问答、头脑风暴、对话、改写、摘要、分类等0类任务任务类型多样且占比不同以RM数据集为推测依据FT数据集作为初始种子数据集,为提升模型的泛化能力,通常具备更好的数据多样性;图表:奖励模型()数据集分类占对话8 分改写 7总结4 其他 封闭式问答4 3摘要2头脑风暴11开放式问12 文本生成46资料来源:《Trininglagaemols ofllowistctis ith hmnfebck》,og Ouan(2)、数据质量:作为初始的种子数据集,FT 数据集大部分数据来自标注团队,而非 数据采样因此T数据集具有更好的数据质量同时OpnI在标注团队的人员组成上,充分考虑了性别、身份、国籍、年龄、学历等因素的差异性。图表:标注团队按性别分类 图表:标注团队按国籍分类女女男 菲律孟加美国阿尔巴尼加拿大哥伦比印度乌拉圭巴西资料来源:《Trininglagaemols ofllowistctis ith hmn feack》,og Ouan(2)、 资料来源:《Trininglagaemols ofllowistctis ith hmn feack》,og Ouan(2)、图表:标注团队按年龄分类 图表:标注团队按学历分类 高中大学资料来源:《Trininglagaemols ofllowistctis ith hmn feack》,og Ouan(2)、 资料来源:《Trininglagaemols ofllowistctis ith hmn feack》,og Ouan(2)、步骤二:奖励模型(RwadMode,M)训练𝑘𝑘通过RLHF 的思路训练奖励模型。这一阶段的主要目标,在于借助标注员的人工反馈,训练出更符合人类意愿的奖励模型,为监督策略建立评价标准。训练奖励模型的过程同样可以分为三步:)任务采样:抽样出一个prmpt 问题及T 模型的k 个输出结果;)结果排序:标注员将这 k 个结果按质量好坏排序,形成𝐶2组训练数据对({smpereward} prsM训练使𝐶2组训练数据({smpereward}pars训练奖励模型让奖𝑘𝑘励模型更加理解人类偏好。图表:奖励模型()训练过程示意图资料来源:《llstrtingRinfcmt eig frm Hmn Feack RLH)》,Natan mbr(22)、𝑘𝑘两两对比,最大化“更喜欢”和“更不喜欢”的差值。为了更加清晰地理解此轮步骤中排序和训练,我们针对 InstuctGT 论文介绍的方法,进行了更为通俗的解释。针对一个 rompt任务FT模型输出k个结果排序过程即对这k个结果进行两两对比并根据结果的好坏进行排序;为了让RM更好地学习人类偏好可先通过𝐶2组分别计算oss损失函数值,再将𝐶2组结果求和取均值,损失函数的目标是最大化更喜欢的结果和更不喜欢的结果之间的差值;通过oss 函数的梯度回传,RM 模型逐渐学会给更喜欢的结果打高分,给更不喜欢的结果打低分,从而实现了人类偏好的模仿。𝑘𝑘图表:Loss损失函数拆解资料来源:《Trininglagaemols ofllowistctis ith hmnfebck》,og Ouan(2)、步骤三:近端策略优化(O)强化学习通过训练好的 M 模型和近端策略优化 O 算法优化 T 模型策略。近端策略优化(roxmal ocy Optmiaton,O)是一种强化学习算法,核心思路在于将 olcy Graent 中 O-pocy 的训练过程转化为 Of-pc,即将在线学习转化为离线学习。具体来说就是再次让T模型去回答prmptdtaset某个问题通过O算法产生输出;然后,不再借助人工评估结果好坏,而是利用步骤二训练的 RM 模型去对 FT 模型的预测结果进行打分排序,即用“I 训练 。此阶段可以循环多次,从而得到参数质量更好的模型。图表:近端策略优化()强化学习示意图资料来源:《llstrtingRinfcmt eig frm Hmn Feack RLH)》,Natan mbr(22)、人类反馈主要体现在M阶段。总结来看,InstructGT以及ChaGT 的训练过程可概括为首先通过人工标注数据promptdtaset对原始模型(G-3或G-进行有监督微调得到模型其次让模型1对一个prmpt进行多个输出并通过人工进行输出结果排序并训练奖励模型R最后继续训练模型给定一个prmp得到输出后由奖励模型RM继续完成打分,反复迭代后得到最终的InstructGT 或ChaGT。人类标注员参与T训练与RM训练两个过程,其中人类反馈主要体现在RM阶段。图表:人工主要参与F、M,人类反馈主要体现在M阶段资料来源:《Trininglagaemols ofllowistctis ith hmnfebck》,og Ouan(2)、论文结论:RHF是PT需求对齐的重要支撑RLHF有效优化了模型输出输出结果更加符合人类意愿InsructGT论文中分别训练了 3 亿、0 亿、0 亿三个参数规模的InstructGT 模型,实验证明:3 亿参数规模的 InstuctGT 模型(O-tx)在多场景下的输出效果均优于10 亿参数规模-3 模型人类反馈强化学习RLF方法的引入一方面能够尽可能地对(gnmetGT 的输出,让GT 具备对用户更加友好的语言逻辑,微调出用户友好型 GT;另一方面,人工反馈的引入,帮助模型更好的理解人类思维和意图,训练结果更符合人类的需求。图表:InsruGPT更好地实现了模型输出与人类需求对齐( .8模型 .7输出优 .6BB ST.5.4模型 .3的率频 .2率).1 GPTGPT(mt) SFTPPOPPO-tx.0.B B 7B资料来源:《Trininglagaemols ofllowistctis ith hmnfebck》,og Ouan(2)、模型的“H”特性显著提升,输出内容更有用、更真实、更无害。为了衡量 InsructGT模型的有用(Hepfu真实(Honst无害(Harmes是否得到改善InstuctGT论文在公开可用的数据集上使用现有指标,对比了InstructGT 与G-3 的模型性能与 G-3 相比,根据 rutfuQA 指标,InstructGT 产生的模仿性错误更少;根据 Reaoxcty指标InstructGT输出的毒性更小根据I 提示分布进行人工评估发现 InstructGT 更少地编造事实“幻觉,并生成更合适的输出。总结来看,InstuctGT模型输出内容的有用性、真实性、无害性均得到一定程度的提升。图表:InsruGPT模型的有用性、真实性、无害性显著提升注:毒性、致幻性得分越低越好,真实性、适当性等分越高越好资料来源:《Trininglagaemols ofllowistctis ith hmnfebck》,og Ouan(2)、atT SIsctGP:核心是基础大模型的不同演化:从GP3到G3.5,基础大模型能力再升级训练方法基本一致核心区别是基础大模型的不同比OpnI官网介绍的ChaGT训练方法与InstructGT论文介绍的InstructGT训练方法两者的训练方法基本一致核心区别在于InstructGT、CatGPT 分别基于G-、-5 进行模型微调。为了充分理解ChaGT与InstructGT的能力差异,我们梳理了从G-3到G-5发展过程。G-3元(20年7月OpnI发表论《LnuaeMdesareFe-hot Larners开启G-3元年与G-2相比G-3进一步扩大模型参数与训练数据量,并用fe-sht取代ero-sho,模型泛化能力得到进一步提升;G-3系(-02.031年8月论《vauatingLargeLagugeMdes randonCode发表基于G-3进行代码训练微调得到Codx通用代码生成模型,对应OpnIAI中的co-cusman-2年3月论《rannglagugemoes tofoownstructiosthhumanfedack发表基于G-3模型经过T训练RM训练O 强化学习,得到InstructGT 模型,其中T 部分对应了OpnI AI 中的 dvnci-nstruct-bt、text-dvnc-;G-5系(4-.6:2年4月兼具语言模型代码训练指示微调的coe-dvnc-002模型面世仍称其为 Codx对应OpnAII中的co-dainc-; 2 年 -6 月基于co-dvnc-002的有监督指令微调 (suersedinstructontued)模型ext-dnc-002发布此次指令微调降低了模型的上下文学习能力但增强了模型的零次学习能力;ChatGT时(2年1月基于ext-dinci-002进行RLHF指令微调的两种变体模型出现,分别为text-dnc-、ChatGT;其中text-dnc-3 恢复了 text-dvnci-2 中丢失的部分上下文学习能力同时得益于RLHF进一步改进了零次学习能力;ChaGT则具备了建模对话历史的能力。图表:GP3及GP.5系列模型演进路径资料来源:《Howds PT Otinits Ailit?TcigEmeet Ailities f Lgae ols o thirSorcs》,Yo u(02)、对比:增加代码训练与指示微调,P3.5具备三大优势与G-3相比G-5增加代码训(Code-taining与指示微(Instuction-uning根据上文对G-3及G5系列模型的发展梳理不难看出以co-dvnc-00(用于代码生成、text-dinc-00(用于文本生成)为代表的G-5 模型,与G3 模型相比增加了代码训练指示微调两个训练步骤代码训练经过前期的代码训练G-模型具备更好的代码生成与代码理解能力,同时间接拥有了使用思维链进行复杂推理的能力;)指示微调:经历Intructon-tuin,G-5具备更好的模型泛化能力同时模型的生成结果更加符合人类的预期。图表:与P3相比,P.5增加代码训练与指示微调资料来源:《Trininglagaemols ofllowistctis ith hmnfebck》,og Ouan(2)、G-5 具备三大优势,hatGT 实现优势融合。于模型训练的持续优化,与 G-3相比,G-5 具备三大优势:更强的复杂推理能力,更好的人类指令响应,更全面的文本、代码生成能力。作为基于G-5的模型微调产物,ChaGT实现了Cod-trann、 Instructon-tunn、RLHF等训练的优势整合,我们针对ChaGT优势进行能力溯源:预训练大模型:ChaGPT 具备的语言生成能力、基础世界知识、上下文学习能力等基本能力均来源于基于rasformr的模型预训练大量知识的存储能力依托于庞大的模型数(G-3模型参数为0亿;代码训练:ChaGT 具备较好的代码生成与代码理解能力,同时具备执行复杂推理的能力,主要得益于代码训练Cod-tranng的引入;初代G-3未进行过专门的代码训练,因此在代码生成、理解方面能力相对较差,同时推理(思维链)能力也较差;因此可以判断,代码训练是ChaGT上述能力的重要来源;人类反馈强化学习:ChaGT 具备更好的问答能力,同时可以拒绝不当的问题、拒绝知识范围之外的问题,这些在对话问答上的突出表现,得益于人类反馈强化学习LHF 训练让ChaGT更加遵循人类的价值观同时拥有了建模对话历史增加对话信息量能力。图表:haGPT优势能力溯源资料来源《HowosGPTOtinitsAilit?TcigEmretAilitiesofanaedlstothirSocsYoF(02OenIVSGOenI贯彻cer-ly路径技术集大成者ChatGT领先发布,OpeI打开大语言模型新局面。2年1月0日,ChaGT正式上线仅花费5天时间用户数超10万据mareb数据显示3年1月ChaGT平均每天约有0 万独立访客。面对ChaGT 的领先发布与热烈反响,2 年2 月8日,Goge 在发布会上开启对话机器人ard 首秀,相较于ChaGT 的突出表现,ard的表现则稍显逊色2年2月15日Gogle首席执行官桑达尔皮查(udrPch)呼吁员工进行ard的内部测试、优化。Decode-only技术博采众长,两大特点助力ChatGT 成功面世。通过梳理7 年起, Gogle 与OpenAI 在LLM 领域的布局可以看到,pnI 具备两大突出特点:)贯彻 Decode-only 技术路线:从G-1 到ChaGT,pnI 的M 均采用Decdr-oly架构单一架构领域的持续深耕与模型参数的不断扩大,让OpnI的GT系列模型具备强大的学习能力与文本生成能力2技术集大成者htGT的发展不仅得益于GT模型参数训练数据的持续优化也得益于各类M新技术的融会贯通OpnI博采众长,加速新技术在GT系列模型中的深度应用。图表:OpnI与Gogle在M领域的布局(7年6月3年2月)注:红框内浅粉色高亮的三种预训练语言模型是29年三类典型模资料来源:OAI官网、Gole官网、CSDN、特点一:贯彻ecodronly技术路径Deoder-only具备文本生成优势,penI深耕布局。OpnI 自8年的G-1起,在模型架构上始终坚持Deoer-only的技术路径得益于Decoer-oly架构在文本生成上的天然性优(具体分析可参考华泰计算机3年2月4日发布的报《GT产业复盘(9大容量路线htGT在对话翻译等文本生成任务中更具优势对比来看, Gogle2018 年、9 年推出的T、T5 分别采用coer-ol、ncodr-Decoer技术方案,直至1年0月推出的FLN模型才采用Decoer-oly方案;特点二:M相关技术集大成者ChatGT是LM领域的技术集大成者从ChaGT的技术路径演进过程来看其底层技术可视为rafomerromp-LarnngInstruction-unngRLHFPO思维链的融合。ansfomer:7 年 6 月,Goge 发布论文《ttention Is ll ou Need,提出 rafomer模型;RLH7年7月DeepMin(Gogle旗下人工智能企业与OpnI联合发布论文《Deep Renforcemet Larnng from Hman references,提出人类反馈强化学习 RLHF方法;O:7年8月,pnI发表论文《roxmal olcy Optmation lgrithms提出对TRO算法的改进O算法;ompt-Lening 0年7月OpnI发布论《LnuageMoesareFe-ht Larner,开启基于romt的NLP新学习范式的研究热潮;Instuction-tunin1年9月Goge发布论《FntunedLagugeModesare Z