Transformer速查宝典:模子、架构、磨炼措施的论文都在这里了

时间:2024-10-27 06:25:13 编辑: 来源:

选自kipply's blog

作者 :kipply

机械之心编译

编纂:梓文、查宝措施张倩

论文大合集,典模的论一篇文章就搞定 。架构

AI 睁开快捷  ,磨炼这对于适才入门或者是文都正想跟上「潮水」的内行们来说并不友好 。假如有一份详细周全的查宝措施知识列表可能会辅助他们更快走上「正途」。

明天给巨匠带来一篇 Transformer 的典模的论综述文章 ,供巨匠清晰 Transformer 的架构下场服从及相关技术 。

本篇综述涵盖了 21 种模子 、磨炼11 种架构变更、文都7 种预磨炼后处置技术以及 3 种磨炼技术(尚有 5 种不属于以上技术的查宝措施工具)。模子搜罗 GPT-三 、典模的论GPT-四 、架构Gopher 、磨炼AlphaCode、文都RETRO 、GPT-3.五、Chinchilla、Flamingo 等 。一些紧张的架构变更搜罗多查问留意力、浓密留意力、混合专家等 。同时还介绍了 RLHF、CAI、Minerva 等预磨炼后处置技术以及超参。所有内容均凭证紧张性以及配合性妨碍排序 ,并将链接附不才方。

如下为机械之心不修正原义对于文章妨碍编译的内容 。

一  、模子

如下模子的属性若未清晰剖析 ,要末未果真,要末简陋凭证尺度 GPT 配置装备部署 。

1.GPT-3

  • 属性 :175B 参数,96 层,12288 嵌入维度  ,96 个留意力头

  • 论文地址 :https://arxiv.org/pdf/2005.14165.pdf

  • 宣告概况 Open AI 宣告于 2020 年 5 月

本文是继 GPT-2 论文(2018 及扩展定律论文后,狂语言模子的一片独创性论文。如下是论文中指出无关 GPT-3 的特色 。

  • 它在一个 300B token 的数据集上妨碍磨炼。该数据集主要由过滤后的 Co妹妹on Crawl 以及一些书籍 、收集文本以及维基百科组成;

  • 运用了 BPE tokenizer(与 GPT-2 相同);

  • 2048 高下文长度;

  • 交替运用密集以及浓密留意力层;

  • 在最后的 375M toks 中 ,学习率升至 0.6 × 10^-4,260B toks 后余弦衰减至 10%;

  • 在前 12B 个 token 中 ,批巨细从 32k toks 回升到 3.2M toks;

  • 4x MLP 投影率 ,如 2017 年 Transformer 论文所示;

  • 50k 辞汇表(vocab size)。

以上的良多特色组成为了一种尺度配置装备部署,被其后的模子一再运用。

在论文记实超参数的表 2.1 中有一个可能的拼写过错,其中 GPT-3 13B 被记作为具备 5140 的嵌入维度,这里理当是 5120。

2.GPT-4

  • 陈说地址 :https://arxiv.org/pdf/2303.08774.pdf

  • 宣告概况:Open AI 2022 年 8 月对于其实现预磨炼,宣告于 2023 年 3 月  。

GPT-4 是 OpenAI 提供的一个模子,其架构不明(技术上相似于 Transformer) 。技术陈说主要搜罗大部份评估(服从展现精采),以及可能从较小模子精确判断出的不断扩展服从 。陈说还记实了后退模子清静性的措施 ,并演示了 GPT-4 的多模态能耐 ,这种能耐彷佛是用相似于 Flamingo 的方式磨炼的 。

3.Gopher

  • 属性:280B 参数 ,260B 非嵌入参数 ,80 层,16384 嵌入维度 ,128 个留意力头

  • 论文地址:https://arxiv.org/pdf/2112.11446.pdf

  • 宣告概况 :DeepMind 在 2020 年尾对于其妨碍磨炼 ,宣告于 2021 年 12 月。

Gopher 是 DeepMind 在 2021 年宣告的第一个大型语言模子 。它运用 RMSNorm 而不是 LayerNorm,运用 Transformer-XL 的相对于位置编码妄想而不是相对于位置编码  ,这便是嵌入参数如斯之多的原因 。

它运用 SentencePiece 妨碍分词 ,辞汇表巨细为 32k,并用 300B token 妨碍磨炼,其中一半来自为 Gopher 群集的 MassiveText  ,以及书籍、Co妹妹on Crawl、维基百科 、往事以及 Github 。

4.AlphaCode

  • 属性:41B 参数 ,8 个编码器层,56 个解码器层 ,6144 嵌入维度

  • 论文地址 :https://arxiv.org/pdf/2203.07814.pdf

  • 宣告概况 :DeepMind 宣告于 2022 年 2 月。

AlphaCode 是在 715GB(967B token)代码根基上磨炼进去的模子  ,可能用于处置编程角逐下场 。它是本文中仅有接管解码器 - 编码器架构的模子。它将编程角逐题视为一项翻译使命(下场陈说 → 处置妄想),以取患上双向性 。它在编码器中运用 1536 个 token ,在解码器中运用 768 个 token 。运用多查问留意力,并在推理时天生数千个样本 ,而后抉择一个处置妄想子集妨碍提交 。

5.RETRO

  • 属性:7B 参数

  • 论文地址:https://arxiv.org/pdf/2112.04426.pdf

  • 宣告概况  :DeepMind 宣告于 2022 年 2 月 。

检索是一种通用的技术,即在妨碍推理时提供一个数据库供其查找  。RETRO 是第一篇运用 2T token 数据库的 Transformer 检索论文。它运用预磨炼的 BERT 式模子将 token 数据库嵌入块中,而后在磨炼以及推理时期对于数据库中的最隔壁实施分块交织留意力 。

6.GPT-3.5

  • 属性:架构未知

  • 文档地址 https://platform.openai.com/docs/guides/gpt

  • 宣告概况 :OpenAI 宣告于 2022 年 3 月。

OpenAI 将三种模子散漫为 GTP-3.5  ,详细搜罗 davinci-002 系列中的两种以及 davinci-003 系列中的一种  。其中 , code-davinci-002 是根基模子,text-davinci-002 是一个带有 FeedME 非 RL 指令调解的版本 。text-davinci-003 是带有 RLHF 的 InstructGPT。有一篇 InstructGPT 论文磨炼了 RLHF 模子 ,但不提到 FeedME  ,而 text-davinci-002 尽管是 InstructGPT 模子,但不运用 RLHF。OpenAI API 上的 davinci 模子在 2020 年的论文中被指出是 175B 模子  ,但从未证实 davinci-002 是否具备相同尺寸 。

7.Chinchilla

  • 属性 :70B 参数,80 层 ,8192 嵌入维度 ,64 个留意力头

  • 论文地址:https://arxiv.org/pdf/2203.15556.pdf

  • 宣告概况 :DeepMind 宣告于 2022 年 3 月 。

Chinchilla 的论文中引入了新的、改善版的 scalling law 。它运用 1.5T token(与 Gopher 相似的数据集)以及与 Gopher 相同的合计量妨碍磨炼,但功能优于 Gopher 。在 scalling law 中  ,模子的参数以及 token 数凭证 20:1 的比例线性削减 。学习率接管余弦调解妨碍调解 。Megatron Turing NLG 以及 Jurassic J-1 Jumbo 是此外两个大型模子 ,由于它们不是 Chinchilla 最优模子  ,也不配患上意思  ,因此不在本文中径自记实。

8.Flamingo

  • 属性:80B 参数

  • 论文地址 https://arxiv.org/pdf/2204.14198.pdf

  • 宣告概况:DeepMind 宣告于 2022 年 4 月 。

Flamingo 是一个多模态(文本 / 图像)模子 。它只天生文本,而图像输入经由视觉编码器(435M 参数)运行 ,并运用交织留意力来关注这些输入 。它还在视觉编码器之后运用重采样器(194M 参数) ,不论输入特色的数目若何 ,都能发生牢靠(大批)的视觉 token 。它们建树在解冻的 Chinchilla 模子上 ,80B 参数来自削减到 70B Chinchilla 模子中的交织留意力层。PaLI 是google的图像 / 语言多模态模子 。

9.Gato

  • 属性 :1.18B 参数

  • 论文地址 :https://arxiv.org/pdf/2205.06175.pdf

  • 宣告概况 :宣告于 2022 年 5 月 。

Gato 是一个通用型智能体 ,算是 Flamingo 的后续产物 ,但具备更多的模态。它运用图像以及文本 ,以及按钮按压数据格式化成的 token  ,尚有来自机械人感知的不断数据编码 ,并试验运用尽可能少的数据来实现格外的使命。这些使命搜罗机械人重叠测试 、图像字幕以及 Atari。

10.Anthropic LM

  • 属性:52B 参数 ,64 层 ,8192 嵌入维度

  • 论文地址:https://arxiv.org/pdf/2112.00861.pdf

  • 宣告概况 :Anthropic 宣告于 2021 年 12 月。

在 400Btoken 上妨碍磨炼,但在 Chinchilla 之后的一篇论文(《 Language Models (Mostly) Know What They Know 》)中  ,Anthropic 运用了为 850B token 磨炼的具备相同架构的模子 。在其后的另一篇对于品格自我更正的论文中 ,运用了一个不清晰剖析的 175B 模子  。

11.PaLM

  • 属性 :540B 参数 ,118 层,18432 嵌入维度 ,48 个留意力头

  • 论文地址 :https://arxiv.org/pdf/2204.02311.pdf

  • 宣告概况  :Google 宣告于 2022 年 4 月 。

妨碍 2023 年 1 月 ,这是果真已经知的最大密集语言模子 。PaLM 运用 SwiGLU 激活 ,运用并行留意力、多查问留意力、旋转嵌入,并对于输入以及输入嵌入运用相同的矩阵 。它不运用偏置 ,运用了一个搜罗 256k 个 token 的 SentencePiece tokenizer。PaLM 是在与 LaMDA 以及 GLaM 相似的数据集上 ,用 780B 个 token 妨碍磨炼的。

12.GPT-NeoX

  • 属性:20B 参数

  • 论文地址 :https://arxiv.org/pdf/2204.06745.pdf

  • 名目地址 :https://github.com/EleutherAI/gpt-neox

  • 宣告概况:Eleuther AI 宣告于 2022 年 2 月。

这是 Eleuther 的一个开源模子。它运用 DeepSpeed (微软) 以及 Nvidia Megatron 在 GPU 上妨碍磨炼 ,并运用与 GPT-J 相同的架构更正 ,在全部 Pile (400B token) 上妨碍磨炼 。

13.GPT-J

  • 属性:6.7B 参数

  • 名目地址 :https://github.com/kingoflolz/mesh-transformer-jax/#gpt-j-6b

  • 宣告概况:Eleuther AI 宣告于 2021 年 7 月 。

GPT-J 因残缺开源而驰名 ,而且与 GPT-3 论文中 6.7B 版本功能相媲美。它在 TPU 上妨碍磨炼 ,并运用旋转嵌入,并行留意力 。为飞腾重大性 ,它仅运用了密集留意力层 。它是在 Pile 上磨炼的,Pile 是一个由 Eleuther AI 建树的凋谢数据集,搜罗 22 个较小的数据集 ,搜罗 Co妹妹on Crawl、 OpenWebText、书籍以及论文。

14.GLaM

  • 属性:1.2T 参数

  • 论文地址 :https://arxiv.org/pdf/2112.06905.pdf

  • 宣告概况:Google 宣告于 2021 年 12 月。

GLaM 被称为「通用语言模子」,是一个混合专家 (MoE) 模子 ,其中的参数是浓密激活 。它每一层有 64 个专家,每一个 token 激活 96.6B 参数 。每一层都有一个门控单元,它为每一个 token 抉择 64 个 MLP 中的一个或者两个。

15.LAMDA

  • 属性 :137B 参数 ,64 层 ,8192 嵌入维度,128 个留意力头

  • 论文地址:https://arxiv.org/pdf/2201.08239.pdf

  • 宣告概况:Google 在 I/O 演出示于 2021 年 5 月,论文宣告于 2022 年 1 月。

LaMDA 对于话模子是凭证 Meena 建树的。它清晰有一个搜罗大批对于话 / 论坛的 2.81T 数据集 (用 32k 的 SentencePiece tokenizer 妨碍编码)。根基模子无意被称为 LaMDA GLM 或者 GLM- 137B;LaMDA 在此根基上削减了良多对于话微调  。

模子磨炼用了多少多个 token 是清晰的 ,它用到了 1024 个 TPUv3,运用率为 56.5%,磨炼光阴为 57.7 天,batch 巨细为 256k ,可能是 bf16 ,合计表明这将是 2.81T token 中的约 900B 。

16.Switch

  • 属性 :1T 参数

  • 论文地址 :https://arxiv.org/pdf/2101.03961.pdf

  • 宣告概况 :Google 宣告于 2022 年 6 月 。

SwitchTransformer 对于 GLaM 妨碍了改善,它只路由到一个专家,从而削减了合计量。它的立异是运用了差距的路由机制 ,证明了路由到单个专家是实用的 。

17.BLOOM

  • 属性:176B 参数 ,70 层,14336 嵌入维度 ,112 个留意力头

  • 论文地址:https://arxiv.org/pdf/2211.05100.pdf

  • 宣告概况:HuggingFace 宣告于 2022 年 7 月。

妨碍于本文梳理的光阴 ,BLOOM 是最大的开源模子。它在 HuggingFace 语料库 ROOTS 上妨碍磨炼 ,该语料库搜罗 498 个 HuggingFace 数据集。该模子在 366B token 上妨碍磨炼,而且位置编码是用 ALiBi 实现的  。它用到了 250k 辞汇表巨细的 BPE tokenizer,辅助它顺应多语言数据。

18.Galactica

  • 属性  :120B 参数

  • 论文地址:https://arxiv.org/pdf/2211.09085.pdf

  • 宣告概况:Meta 宣告于 2022 年 11 月。

Galactica 是一个迷信模子 ,主要以论文 、大批代码 、其余基于知识的数据以及一些 Co妹妹on Crawl 数据为根基妨碍预磨炼。它用 token 对于使命影像妨碍编码,并运用特殊 token 对于引文妨碍编码 。

19.LLaMa

  • 属性 :65B 参数

  • 论文地址:https://arxiv.org/pdf/2302.13971.pdf

  • 宣告概况 :Meta 宣告于 2023 年 2 月。

LLaMa 像是 Chinchilla 的复废品 ,有着至关尺度的磨炼组合 ,大部份为 Co妹妹on Crawl 。

20.OPT

  • 属性 :175B 参数,与 GPT-3 相同的架构

  • 论文地址 :https://arxiv.org/pdf/2205.01068.pdf

  • 名目地址:https://github.com/facebookresearch/metaseq/blob/main/projects/OPT/chronicles/OPT175B_Logbook.pdf

  • 宣告概况:Meta 宣告于 2022 年 5 月。

这是 GPT-3 的复刻版,它在 Pile 以及 PushShift reddit 上磨炼,惟独 180B token 。

这些 Meta 论文残缺不是相互分割关连的名目 。LLama、OPT 以及 Galactica 共有 41 位作者,惟独一位是重合的。

21.GLM-130B

  • 属性:130B 参数

  • 论文地址:https://arxiv.org/pdf/2210.02414.pdf

  • 宣告概况 :清华大学宣告于 2022 年 10 月  。

GLM 是一个开源的双语(中文 / 英文)模子。它运用旋转嵌入以及 DeepNorm,并经由 GeGLU 激活 MLP。值患上关注的是,它主要以 INT4 妨碍推理(而其余模子,如 BLOOM 以及 OPT,则量化为 INT8)  。它还在预磨炼中退出了 prompt ,而不是尺度的 GPT 架构,而且运用 GLM 实现为了双向留意力。

架构变更

1. 多查问留意力(Multi-Query Attention,MQA)

论文地址 :https://arxiv.org/pdf/1911.02150.pdf

Noam Shazeer 的这篇论文中,key 以及 value 在 head 之间同享 ,大大削减了推理时所需的内存数目,后退了延迟以及吞吐量 。这是一篇颇为简洁的论文 ,并附有代码以及服从 。AlphaCode 以及 PaLM 都运用 MQA。

2. 浓密留意力

论文地址 :https://arxiv.org/pdf/1904.10509.pdf

在这种机制中,留意力不会运用于所有以前的 token 。它形貌了浓密 Transformer 的两种气焰 ,一种是跨步式,即关注最后 N 个 token;另一种是牢靠式,即关注序列中的部份 token。在 GPT-3 论文中,该模子被形貌为交替密集以及「部份带状」浓密层 。

3. 混合专家(Mixture-of-Experts ,MoE)

对于 MoE 的内容有良多,在介绍 GLaM 以及 Switch 时已经提到了一点。因此 ,此处将摆列一些优异的原始文献 。

  • 2017 年对于 LSTM 的 MoE 论文 https://arxiv.org/abs/1701.06538

  • 面向 MoE 的 Deepmind Scaling Laws 论文 https://arxiv.org/pdf/2202.01169.pdf

  • 磨炼 1.1T 参数 MoE 的 Meta 论文  :https://arxiv.org/pdf/2112.10684.pdf

一些google的论文 :

  • https://arxiv.org/pdf/2202.08906.pdf 

  • https://arxiv.org/pdf/2202.09368.pdf 

  • https://arxiv.org/pdf/2205.10937.pdf

  • https://arxiv.org/pdf/2202.08906.pdf

  • https://openreview.net/pdf?id=23ZjUGpjcc

4.FlashAttention

论文地址 :https://arxiv.org/pdf/2205.14135.pdf

FlashAttention 是一种架构刷新,能以更少的内存碰头量实现留意力处置 。它对于留意力矩阵妨碍切片以及增量化的 softmax 约简 ,并防止了在后向转达历程中存储全部中间留意力矩阵 。论文指出,与 megatron 比照,它磨炼速率后退到 1.7 倍,推理速率后退到 4 倍多(高下文长度越长,倍数越大) 。在此以前 ,另一篇文章 (https://arxiv.org/pdf/2112.05682.pdf) 也在 TPU 上接管了同样的措施,实现为了 O (log_n) 内存占用 。

5. 编码器 + 解码器

论文地址 :https://arxiv.org/pdf/1706.03762.pdf

凭证 Transformer 的原始论文  ,编码器 - 解码器架构最后是为翻译使命而妄想的。典型的 GPT 架构交替运用留意力以及 MLP 模块  。原始的 Transformer 则接管了编码器块息争码器块。编码器块的妄想是:留意力机制 → MLP;解码器块的妄想是:遮掩留意力→ 编码器 - 解码器留意力 → MLP 。对于良多序列到序列的使命来说 ,好比 AlphaCode 或者 T5 ,这也是一个公平的架构 。

6. 平行留意力

论文地址:https://arxiv.org/pdf/2204.02311.pdf

PaLM 运用平行留意力 。即在磨炼模子时 ,留意力层以及 MLP 层并背运行,运用相同的向量 。如斯一来 ,就能将留意力以及前馈矩阵乘法并吞在一起 ,从而提升运算强度,取患上更好的功能(PaLM 的磨炼速率提升了 15%) 。GPT-J 也运用了这种措施。

7. 可供抉择的激活妄想 :GeGLU ,SwiGLU,SoLU

论文地址 :https://arxiv.org/pdf/1706.03762.pdf

最后的 Transformer 论文运用 ReLU 来激活 MLP 模块。它在两个线性变更(matmuls)之间妨碍重大的 x if > x = 0 else 0。从直不雅上看 ,这有点纰漏 。GeLU 与 ReLU 相似 ,但要滑腻一些 。

论文地址:https://transformer-circuits.pub/2022/solu/index.html

SoLU(Softmax)重大地说便是 x*softmax (x),用于后退模子的可批注性 。

论文地址:https://arxiv.org/pdf/2002.05202.pdf

SwiGLU 是所列论文中最重大的 ,也是 Noam Shazee 的总体论文 。它建树在门控线性单元的根基上,旨在比 ReLU 更晃动,并在 GLU 之行妨碍 swish 运算 。与 GeLU 同样,它硬化了 ReLU  ,应承某些值低于零。

8.LayerNorm 的替换妄想:DeepNorm,RMSNorm

LLM 每一个区块有两次 norm(一次用于留意力,一次用于前馈) ,它会实施一些归一化功能以改善磨炼。

DeepNorm 论文地址:https://arxiv.org/pdf/2203.00555.pdf)

RMSNorm 论文地址 :https://arxiv.org/pdf/1910.07467.pdf

DeepNorm 以及 RMSNorm 可能成为替换妄想 。RMSNorm(均方根)重大来说便是数值均值的平方根。尚有一种 batch norm ,功能很低 ,用起来彷佛不太智慧。

9.RoPE

  • 论文地址:https://arxiv.org/pdf/2104.09864.pdf

  • 相关 Blog 文章:https://blog.eleuther.ai/rotary-embeddings/

这篇 Blog 文章总结患上颇为优异 ,本文不做赘述。

10.BPE vs SentencePiece Tokenizers

  • BPE 名目地址:https://huggingface.co/learn/nlp-course/chapter6/5?fw=pt

  • SentencePiece 编码器名目地址 :https://github.com/google/sentencepiece

字节对于编码(Byte Pair Encoding ,BPE)是大少数语言模子的默认编码,最后的 GPT 论文、GPT-3 以及 GPT-3.5 都运用了这种编码 。不运用纯 BPE ,而运用 SentencePiece 情景的一个清晰原因是,扩散不搜罗空格并吞的单词,就像 AlphaCode 、GLM(中文)以及 PaLM(清晰是由于多语言)那样 。

11.ALiBi

论文地址 :https://arxiv.org/pdf/2108.12409.pdf

ALiBi(Attention with Linear Biases)是一种长高下文位置嵌入妄想 ,经由凭证距离对于 qk 分数妨碍线性偏置,来反对于对于更长的长度妨碍外推。BLOOM 用了 ALiBi ,Galactica 也试验过 ,但不接管。

预磨炼后处置技术

1. 接管 PPO 算法的 RLHF

在 RLHF 中 ,首先要磨炼一个处分模子 ,由标注员评估模子天生的数组。而后在 RL 中运用 PPO(近端策略优化),策略天生由处分模子评估的输入,以改善策略 。

Christiano 论文 :https://proceedings.neurips.cc/paper/2017/hash/d5e2c0adad503c91f91df240d0cd4e49-Abstract.html

Deepmind 的 Sparrow 以及 Anthropic 的 LM 都是用 RL (AI|H) F 磨炼的 ,它们都有对于话界面。WebGPT 以及 GopherCite 同样,也是用 RLHF 磨炼的(后者调用了 RLHPreferences) 。我以为,这都源头于 2017 年的 Christiano,它先于 LLM 所有内容 ,之后才是 2020 年凭证人类反映妨碍的总结以及 PPO 论文。

2020 年凭证人类反映妨碍的总结 https://proceedings.neurips.cc/paper/2020/file/1f89885d556929e98d3ef9b86448f951-Paper.pdf

2.Constitutional

论文链接 :https://arxiv.org/pdf/2212.08073.pdf

作为 RLHF 的扩展  ,Constitutional 根基上是 RLAIF ,不外实际上被称为 CAI 。它有一个把守学习阶段 ,在这一阶段 ,只提供辅助的 AI 会天生坚持性 prompt 。而后 ,助手会凭证所提供的 constitution(以字符串的方式提供给模子的一组短值)迭代出自己的照应 。而后对于这些照应妨碍微调 。第二阶段就像接管 PPO 的 RLHF,只不外将 AI 反映交流了 。

3.Minerva

论文地址 :https://arxiv.org/pdf/2206.14858.pdf

Minerva 是 Blueshift 团队于 2022 年 6 月宣告的一个数学以及迷信数据微调模子,实施下场颇为宜。它是一个来自 PaLM 的 62/540B 微调模子 。它的数据集来自 ArXiV 以及一些网站 ,并经由精心预处置,保存了数学格式。

4.Codex

论文地址 :https://arxiv.org/pdf/2107.03374.pdf

Codex 于 2021 年 7 月推出(并反对于了 Github Copilot 的推出),是在 100B token 代码 (此处为果真的 Github 代码) 上微调而成的 。该论文还初次提出了 HumanEval ,即人类编写的代码评估 。本文最值患上留意的是 ,它证明了代码数据对于代码功能颇为紧张 ,由于 GPT-J 在代码方面的展现优于 GPT-3。他们还为代码削减了一些 token ,这使缩短率后退了 30% 。

5. 只对于 CoTed 输入妨碍微调

我忘了哪篇论文是这么做的,但隐约记患上他们凭证模子的脑子链输入对于模子妨碍了微调 ,服从变患上更好。尽管这在预料之中 ,可是也值患上关注。

6.FeedME (SFT)

论文地址:https://arxiv.org/pdf/2203.02155.pdf

这种措施在 Instruct GPT 论文中有所形貌  ,但这不用定是该措施源头。该措施的源头愈加挨近下面这篇论文 。

论文地址 :https://arxiv.org/pdf/1909.08593.pdf

把守微调运用家养天生的内容 ,而后用于微调预磨炼模子  。论文发现,SFT 比根基预磨炼模子展现更好 ,但 RLHF 比 SFT 展现更好。

7.FLAN

论文地址:https://arxiv.org/pdf/2109.01652.pdf

FLAN 是一个经由指令调解的模子(在指令格式的 nlp 使命上妨碍了微调)  ,可提升零样本功能 。

磨炼技术

1. 长于配置超参数

不论文是特意品评辩说这个的,但精确配置超参数显明黑白常紧张的。

经由浏览如下文章可能取患上一些基准 。

  • Chinchilla 论文:https://arxiv.org/pdf/2203.15556.pdf

  • Scalling Laws 论文 https://arxiv.org/pdf/2001.08361.pdf

  • Jane Street 的无关清晰批巨细的博客文章 :https://blog.janestreet.com/does-batch-size-matter/

2. 基于人类反映的预磨炼

论文地址 :https://arxiv.org/pdf/2302.08582.pdf

尽管 PHF(Pretraining with Human Feedback)在预磨炼时运用了一种重大的技术来标志数据  ,但预磨炼每一每一接管无把守的方式 。该措施在磨炼时运用两个条件 token(好的以及坏的)预置到样本中 ,而后在推理时运用它们妨碍采样。该钻研还试验了其余种种目的(特意是把坏数据过滤掉)  ,但在 python 气焰、PII 以及毒性上的评估服从都很差 。

3.MuP

论文地址 :https://arxiv.org/pdf/2203.03466.pdf

MuP(Maximal Update Parameterization )是一种参数化措施,这种措施不光节约了参数扫描合计 ,而且更挨近最优。这篇论文很好地论述了这一措施的实际凭证。

其余

1. 脑子链(CoT)

论文地址:https://arxiv.org/pdf/2201.11903.pdf

CoT 是一种让模子 「step-by-step」思考并发生更好服从的技术,名字源头于上述论文《 Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 》 。论文形貌了宣告于 2021 年 2 月的论文《Prompt Progra妹妹ing for Large Language Models:Beyond the Few-Shot Paradigm》中技术的详细运用。

论文地址:https://arxiv.org/pdf/2102.07350.pdf

2. 工具运用

对于尺度工具运用的论文可能最先追溯到 2021 年 12 月的 WebGPT 论文。文中 GPT-3 可能碰头收集 ,从而大大增强了模子能耐 。

论文地址 :https://arxiv.org/pdf/2112.09332.pdf

除了此之外,DeepMind 还磨炼了可能借助 RL 工具来实现种种使命的智能体 ;Meta 宣告语言模子 Toolformer ,可能教会自己运用工具 。

  • DeepMind 论文:https://arxiv.org/pdf/2202.08137.pdf

  • Meta 的 Toolformer :https://arxiv.org/pdf/2302.04761.pdf

3.Fill In the Middle

论文地址:https://arxiv.org/pdf/2207.14255.pdf

这篇论文形貌了一种重大的数据转换 ,它将子字符串从文本中间移到开始,并要求模子填充中间部份 。这样,模子就能取患上一种对于代码补全等使命颇为实用的能耐,而不会影响严厉意思上从左到右使命的功能。

4. 采样技术:Top-k ,Top-p (核),Beam Search

与 Top -P 无关的论文地址:https://arxiv.org/pdf/1904.09751.pdf

语言模子的输入根基上是每一个可能 token 的 logit ,而后将其 softmax 化为多少率 。将 logits 转换为 token 的最重大措施 ,便是取最有可能的 token。当语言模子有温度操作时,它将 logits 除了以温度,这使模子对于其首选更有定夺 / 更不定夺 。Top -K 采样从该扩散中取患上前 K 个 token 以及样本。Top -P 采样,或者称核采样 ,会抉择 tokens 中多少率积攒排名前 P 个百分比的部份 ,并从这个选定的部份妨碍抽样。

5. 无尾采样(Tail Free Sampling)

文章地址:https://www.trentonbricken.com/Tail-Free-Sampling/

无尾采样是 Top-p 采样的衍生,之以是这样命名是为了找到 「尾」,由于 Top-p  采样可能会在良多 token 具备相似多少率的点上被切断而失败 。下面这篇文章像是剖析了无尾采样可能更好妨碍采样使命的原因 ,但当波及到后退模子的缔造力以及规模时,不很好的基准 。

填补地址(文章中提到的其余论文的地址)如下 :

  • GPT-2 论文(2018):https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

  • 扩展定律论文:https://arxiv.org/pdf/2001.08361.pdf

  • Transformer 论文 2017:https://arxiv.org/pdf/1706.03762.pdf

  • Turing NLG 论文:https://arxiv.org/pdf/2201.11990.pdf

  • Jurassic J-1 Jumbo 论文 :https://uploads-ssl.webflow.com/60fd4503684b466578c0d307/61138924626a6981ee09caf6_jurassic_tech_paper.pdf

  • PaLI 论文 :https://arxiv.org/pdf/2209.06794.pdf

  • post-Chinchilla 论文:https://arxiv.org/pdf/2207.05221.pdf

  • 无关品格自我更正的论文:https://arxiv.org/pdf/2302.07459.pdf

  • 近端策略优化论文 :https://arxiv.org/pdf/1707.06347.pdf

  • Deepmind 的 Sparrow 论文:https://arxiv.org/pdf/2209.14375.pdf

  • WebGPT 论文:https://arxiv.org/pdf/2112.09332.pdf

  • GopherCite 论文:https://arxiv.org/pdf/2203.11147.pdf

原文链接:https://kipp.ly/transformer-taxonomy/?continueFlag=a897a8d0eb16dcae5398f1b58cc5e06f

搜索关键词: