文本描述
证券研究报告
计算机
GPT产业复盘(2022):推出ChatGPT
华泰研究
计算机 增持 (维持)
2023 年 2 月 19 日│中国内地 专题研究
研究员 谢春生
溯源 GPT 发展:2022 年 ChatGPT 面世,LLM里程碑式胜利SAC No. S0570519080006 xiechunsheng@htsc
SFC No. BQZ938 +(86) 21 2987 2036
梳理 GPT 系列模型的演进过程,可以看到 2022 年是 GPT 系列模型围绕
GPT-3、GPT-3.5 加速版本迭代的重要节点,2022 年 11 月,ChatGPT 成联系人 袁泽世,PhD
功面世,成为历史上用户增长最快的消费者应用。与 Google、FaceBook SAC No. S0570122080053 yuanzeshi@htsc
等公司不同,OpenAI 从初代模型 GPT-1 开始,始终贯彻只有解码器+(86) 21 2897 2228
(Decoder-only)的技术路径,2018-2022年 GPT 系列模型几乎按照每年
一代的速度,不断迭代升级。我们认为,2022年 ChatGPT 的成功,是OpenAI欧亿·体育(中国)有限公司走势图
公司 GPT 系列模型的阶段性胜利,也是大语言模型 LLM 的里程碑式胜利,
后续围绕LLM 的技术升级、应用拓展有望加速开启,AI 产业发展或将提速。 计算机 沪深300
(%)
3
ChatGPT:引入人类反馈,模型训练 SFT、RM、PPO三步走
(6)
ChatGPT、InstructGPT 分别是基于GPT-3.5、GPT-3 微调得到的新版本模
型,其核心目标是实现模型输出与人类预期的需求对齐(alignment),人类(16)
反馈强化学习 RLHF 成为模型需求对齐的重要技术支持。ChatGPT、 (25)
InstructGPT 的模型训练主要包括三步:1)有监督微调 SFT:通过指示学(34)
习对模型进行有监督微调;2)奖励模型 RM 训练:借助人工标注员对模型 Feb-22 Jun-22 Oct-22 Feb-23
输出进行排序,反馈训练得到奖励模型,此步是人类反馈的重要体现;)
3欧亿·体育(中国)有限公司来源:Wind,华泰研究
近段策略优化 PPO 强化学习:通过监督学习策略生成PPO 模型,优化、
迭代原有模型参数。总结来看,RLHF让模型输出更加符合用户预期。
ChatGPT VS InstructGPT:核心是基础大模型的不同
对比 ChatGPT 与 InstructGPT 的训练方法,可以发现,两者的训练方法基
本一致,核心区别在于InstructGPT、ChatGPT 分别基于 GPT-3、GPT-3.5
进行模型微调。与 GPT-3 相比,GPT-3.5 增加了代码训练与指示微调:1)
代码训练(Code-training):让 GPT-3.5 模型具备更好的代码生成与代码理
解能力,同时间接拥有了复杂推理能力;2)指示微调(Instruction-tuning):
让 GPT-3.5 模型具备更好的泛化能力,同时模型的生成结果更加符合人类的
预期。作为基于 GPT-3.5 的模型微调产物,ChatGPT 具备更好的问答能力,
更加遵循人类的价值观。
OpenAI VS Google:OpenAI贯彻 Decoder-only 路径,技术集大成者
通过梳理Google 与 OpenAI 在 LLM 领域的布局,可以看到,OpenAI 具备
两大突出特点:1)贯彻Decoder-only 技术路线:从GPT-1 到 ChatGPT,
OpenAI 的 LLM 均采用 Decoder-only 架构,单一架构的持续深耕与模型参
数的不断扩大,让 OpenAI 的 GPT 系列模型具备强大的学习能力与文本生
成能力;2)技术集大成者:ChatGPT 的发展不仅得益于 GPT 模型参数、
训练数据的持续优化,也得益于各类LLM 新技术的融会贯通,OpenAI博采
众长,加速Instruction-tuning、RLHF、思维链等新技术在 GPT 系列模型中
的深度应用,ChatGPT 是现有技术的集大成者。
风险提示:宏观经济波动;下游需求不及预期;本报告内容均基于客观信息
整理,不构成投资建议。
免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。1扫码进群领取
1、优质研报免费获取,欧亿·体育(中国)有限公司报告定期打包
2、每日推送欧亿·体育(中国)有限公司最新深度研报(精选10篇)
3、最新欧亿·体育(中国)有限公司报告、公司研究、专业大咖分享
计算机
正文目录
GPT 发展之 2022: ChatGPT 成功面世,LLM 里程碑式胜利 ............. 3
ChatGPT / InstructGPT:增加人类反馈强化学习(RLHF) ............... 4
优化目标:从提示学习到指示学习,聚焦需求对齐(alignment) ............... 4
训练过程:“三步走”实现人工反馈强化学习 ................... 5
步骤一:有监督微调(SFT)训练 .............. 6
步骤二:奖励模型(Reward Model,RM)训练 ............. 8
步骤三:近端策略优化(PPO)强化学习 ................. 9
论文结论:RLHF 是 GPT 需求对齐的重要支撑 .............. 10
ChatGPT VS InstructGPT:核心是基础大模型的不同 ................ 11
演化:从GPT-3 到 GPT-3.5,基础大模型能力再升级 ................. 11
对比:增加代码训练与指示微调,GPT-3.5具备三大优势............ 12
OpenAI VS Google:OpenAI贯彻 Decoder-only 路径,技术集大成者 ......... 14
特点一:贯彻 Decoder-only 技术路径 .............. 14
特点二:LLM相关技术集大成者 ................ 14
总结:厚积薄发,ChatGPT引发 AI 产业范式革命 .............. 16
风险提示......................... 16
免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 2
计算机
GPT 发展之 2022:ChatGPT成功面世,LLM 里程碑式胜利
2022 年是 OpenAI 公司 GPT 系列模型演进的重要节点。2022 年 11 月,OpenAI 发布生成
式对话机器人 ChatGPT,上线仅2 个月,月活用户数已突破1 亿,成为历史上用户增长最
快的消费者应用。回顾大语言模型(Large Language Model,LLM)的发展历史,可以发
现,与 Google、FaceBook 等公司不同,OpenAI 从 GPT-1 开始始终贯彻 Decoder-only 的
技术路径,2018-2022年 GPT 系列模型几乎按照每年一代的速度,不断升级迭代。我们认
为,2022 年 ChatGPT 的成功面世,是 LLM 里程碑式的胜利,未来围绕 LLM 的技术升级、
应用拓展有望加速开启。
2022 年 OpenAI 加速 GPT 模型的版本迭代,ChatGPT融合多技术优势。通过梳理 GPT
系列模型的演进过程,可以看到 2022 年是 GPT 系列模型围绕 GPT-3、GPT-3.5 加速版本
迭代的年份;2022 年 3 月,基于 GPT-3 微调的 InstructGPT 发布,验证了人类反馈强化学
习 RLHF 对模型输出对齐(alignment)的重要作用;2022 年 4-6 月,基于 Codex、InstructGPT,
OpenAI 加速迭代形成 GPT-3.5 模型;2022 年 11 月,基于 GPT-3.5 微调的 ChatGPT 发布,
成为 Instruction-tuning、RLHF、思维链等LLM 相关技术的集大成者。我们认为,ChatGPT
是 OpenAI 基于 GPT 系列模型的阶段性成果,未来随底层大模型的持续拓展,AI 产业发展
或将提速。
图表1: 2017-2022 年基于 Transformer 的 LLM 梳理及 2022 年 GPT 模型的版本迭代
欧亿·体育(中国)有限公司来源:OpenAI 官网、Google 官网、CSDN、华泰研究
免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 3
计算机
ChatGPT / InstructGPT:增加人类反馈强化学习(RLHF)
优化目标:从提示学习到指示学习,聚焦需求对齐(alignment)
从模型微调到提示学习再到指示学习,GPT 模型零次学习能力不断提升。2022 年论文
《Finetuned Language Models Are Zero-Shot Learners》提出指示学习(Instruction-tuning)
思想,以提升模型的零次学习能力。对比来看:1)模型微调(Fine-tuning): 以 GPT-1
为 代 表 , 需 要 大 量 的 微 调 数 据 集 样 本 , 特 定 模 型 解 决 特 定 任 务 ; 2 ) 提 示 学 习
(Prompt-learning): 以 GPT-3 为代表,需要少量的微调数据样本,模型小样本学习
(few-shot Learning)能力更强;3)指示学习(Instruction-learning):以 FLAN、InstructGPT、
ChatGPT 为代表,模型通过下游多类型任务的指示微调,零次学习(zero-shot Learning)
能力更强;同时,提示学习与指示学习均为一个模型解决多类任务。
图表2: 模型微调(Fine-tuning)、提示学习(Prompt-learning)、指示学习(Instruction-tuning)对比
欧亿·体育(中国)有限公司来源:《Finetuned Language Models are Zero-shot Learners》,Jason Wei(2022)、华泰研究
聚焦模型输出与人类需求对齐,引入人类反馈强化学习。GPT 系列模型发展至 GPT-3,已
经在翻译、问答、摘要等任务上取得了良好的性能,研究者开始更加关注模型生成内容的
有用性(Helpful)、真实性(Honest)、无害性(Harmless),希望实现模型输出内容与人
类偏好内容的需求对齐(alignment)。为提升模型的“3H”特性,从 InstructGPT 开始,
InstructGPT、ChatGPT 均引入人类反馈强化学习(Reinforcement Learning from Human
Feedback,RLHF),实现基于人类反馈的模型微调,让模型输出更符合人类期待。
图表3: InstructGPT 的“3H”优化目标
欧亿·体育(中国)有限公司来源:《Training language models to follow instructions with human feedback》,Long Ouyang(2022)、华泰研究
免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 4