GPT-1论文阅读笔记_Improving Language Understanding by Generative Pre-Training

这是2018年OpenAI关于初代GPT的论文阅读笔记。先在无监督数据上预训练Transformer decoder语言模型，再在有监督数据上微调。测试了NLI、QA等4个NLU子任务，还介绍了模型结构、优化目标，展示实验数据及模型分析结果。

诸神缄默不语

1695人浏览 · 2023-09-04 19:39:15

诸神缄默不语 · 2023-09-04 19:39:15 发布

诸神缄默不语-个人CSDN博文目录
 诸神缄默不语的论文阅读笔记和分类

论文全名：Improving Language Understanding by Generative Pre-Training
论文下载地址：https://www.mikecaptain.com/resources/pdf/GPT-1.pdf

官方博文：Improving language understanding with unsupervised learning

本文是2018年OpenAI的工作，是初代GPT的原始论文。

先用无监督数据预训练语言模型（Transformer decoder），再在有监督数据上微调（加一层prediction head，同时优化语言模型和有监督任务的损失函数）
在这里插入图片描述

1. 简介

NLU任务包括textual entailment, question answering, semantic similarity assessment, and document classification等子任务，本文测试了NLI、QA、语义相似度和文本分类4个任务。
有监督数据稀少，本文的解决方案是在语言模型上用海量无标签数据上进行generative pre-training，然后再在特定子任务上discriminative fine-tuning。
（算半监督学习）

普遍的使用无监督方法来学习语言学知识的方法，是构建预训练词嵌入来提升NLP任务的效果，这种做法有两个问题：1. 在学习文本表征中使用什么优化目标对迁移最有效，不知道。至今没有绝对优秀的方法。2. 如何利用文本表征最有效，不知道。

2. GPT-1

1. 无监督预训练语言模型

标准语言模型目标，最大化文本的似然：
在这里插入图片描述

（ $k$ 是上下文窗口尺寸，条件概率 $P$ ，神经网络的参数 $\Theta$ ）

本文用多层Transofmer decoder¹（多头自注意力机制+position-wise前馈神经网络生成target token上的输出分布）：
在这里插入图片描述
$U$ 是token， $n$ 是层数， $W_e$ 是token嵌入矩阵， $W_p$ 是position embedding矩阵

Transformer相比LSTM的优势体验在对长文本的处理上

2. 微调

通过输入（每个任务被转变成不同形式的输入，见figure 1）得到表征，喂进线性输出层来预测 $y$ ：
在这里插入图片描述

新的优化目标：
在这里插入图片描述

事实上是将两个优化目标加起来：
在这里插入图片描述

3. 实验

1. 数据集

上游预训练数据：BooksCorpus和1B Word Benchmark
下游微调数据

2. 下游任务指标

NLI任务的实验结果
QA和常识推理的实验结果
语义相似度和文本分类的实验结果

3. 模型分析

层数对微调结果的影响（答案是越多越好）和预训练更新次数对zero-shot表现的影响
（数值是经规范化后得到的）
ablation study

Generating Wikipedia by Summarizing Long Sequences ↩︎

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

数字化转型智能体：不是 “替代人”，而是让员工成为 “更有价值的人”

2048 AI社区

收藏！Python都不会能直接学AI大模型？小白&程序员入门避坑指南

2048 AI社区

毕业论文AI怎么查重？我的血泪经验+实用工具大公开

有次我为了赶进度，用某免费工具检测显示重复率12%，但用PaperPass旗舰版一查，发现漏检了互联网资源库的3处相似内容。"现在PaperPass新增的"AIGC疑似度"指标，正是这种平衡的体现——它不直接判定内容是否违规，而是给出可能性概率，让作者有自我修正的空间。记得第一次用免费版检测时，系统不仅标出了所有AI生成段落，还给出了详细的修改建议——比如某段关于"深度学习模型优化"的论述，与20