75-GPT 经验篇

文档讨论了GPT及其相关模型的多个方面，包括GPT源码中的past_key_value的作用、GPT与BERT的区别、文本生成的预训练任务、T5与Bart的区别、Bart与Bert的区别，以及GPT-3与GPT-2的区别。重点强调了各模型的结构、功能和应用场景的不同，提供了对自然语言处理领域的深入理解。

Uploaded by

zhuifengcxy

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

50 views3 pages

75-GPT 经验篇

Uploaded by

zhuifengcxy

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 3

GPT 经验篇

来自： AiGC面试宝典

宁静致远 2024年01月27日 19:14

扫码加
查看更多

• GPT 经验篇
• 一、gpt源码past_key_value是干啥的？
• 二、gpt onebyone 每一层怎么输入输出？
• 三、bert和gpt有什么区别
• 四、文本生成的几大预训练任务？
• 五、讲讲T5和Bart的区别，讲讲bart的DAE任务？
• 六、讲讲Bart和Bert的区别？
• 七、gpt3和gpt2的区别？
• 致谢

一、gpt源码past_key_value是干啥的？

在GPT（Generative Pre-trained Transformer）中，past_key_value是用于存储先前层的注意力权

重的结构。在进行推理时，过去的注意力权重可以被重复使用，避免重复计算，提高效率。

二、gpt onebyone 每一层怎么输入输出？

在GPT One-by-One中，每一层的输入是上一层的输出。具体而言，输入是一个序列的嵌入表示
（通常是词嵌入），并通过自注意力机制和前馈神经网络进行处理，得到输出序列的表示。

三、bert和gpt有什么区别

BERT（Bidirectional Encoder Representations from Transformers）和GPT（Generative Pre-

trained Transformer）是两种不同类型的预训练语言模型。主要区别在于：
BERT是一个双向编码器，它预测输入序列中的缺失部分，因此可以用于多种任务，如文本分类、
命名实体识别等。
GPT是一个单向解码器，它生成文本的下一个单词，因此主要用于生成型任务，如文本生成、对话
生成等。

四、文本生成的几大预训练任务？

• GPT（Generative Pre-trained Transformer）系列：包括GPT、GPT-2、GPT-3等。这些模型

使用Transformer架构进行预训练，在大规模语料上学习语言模型，能够生成连贯、具有语义的
文本。
• BART（Bidirectional and Auto-Regressive Transformer）：BART是一种基于Transformer的生
成式预训练模型。它通过自回归解码器实现文本生成，通过自编码器预训练目标来重构输入文
本，能够生成流畅、连贯的文本。
• T5（Text-to-Text Transfer Transformer）：T5是一种通用的文本生成模型，使用了编码器-解码
器结构。它将不同的自然语言处理（NLP）任务转换为文本到文本的转换任务，可用于机器翻
译、摘要生成、问题回答等多个NLP任务。
• XLNet：XLNet是一种基于Transformer架构的预训练模型，采用了自回归和自编码器的组合方
式进行训练。它在语言建模任务上引入了全局的上下文信息，能够生成更加准确和连贯的文
本。
• UniLM（Unified Language Model）：UniLM是一种多任务学习的预训练模型，将不同的自然语
言处理任务转化为统一的生成式任务。它可以用于文本摘要、问答系统、机器翻译等多个任
务。

五、讲讲T5和Bart的区别，讲讲bart的DAE任务？

T5（Text-to-Text Transfer Transformer）和Bart（Bidirectional and Auto-Regressive

Transformer）是两个常见的预训练模型，它们之间的区别如下：
• T5是一种基于Transformer的通用文本生成模型。T5的训练目标是将不同的自然语言处理
（NLP）任务统一为文本到文本的转换任务。它采用了编码器-解码器结构，通过输入一个自然
语言文本，输出另一个相关的自然语言文本，可以应用于机器翻译、摘要生成、问题回答等多
个NLP任务。
• Bart是建立在T5模型基础上的一个变种，它专注于生成式任务。Bart模型使用了自回归解码
器，通过训练一个自编码器来重构原始文本，同时采用了标准的语言模型预训练目标，从而使
得生成的文本更加流畅和连贯。Bart的主要应用领域包括文本生成、摘要生成、对话系统等。
在任务类型上，T5更加通用，适用于多种NLP任务的文本转换，而Bart则更加专注于生成式任务，
并且在生成文本的质量和连贯性上有所优化。
关于Bart的DAE（Denoising AutoEncoder）任务，它是Bart模型的一种预训练目标。DAE任务要
求模型从输入的有噪声的文本中恢复原始的无噪声文本。通过在训练过程中向输入文本中添加噪
声，并要求模型重建无噪声的文本，Bart可以学习到更好的文本表示和重构能力，从而提高生成文
本的质量和准确性。

六、讲讲Bart和Bert的区别？

Bart和Bert是两个不同的预训练模型，它们之间的区别如下：
• Bart是一种基于Transformer的生成式预训练模型，主要应用于文本生成、摘要生成、对话系统
等任务。Bart采用了自回归解码器，通过自编码器预训练目标来重构输入文本，从而生成流
畅、连贯的文本。
• Bert（Bidirectional Encoder Representations from Transformers）是一种双向的预训练模型，
用于生成文本的上下文表示。与Bart不同，Bert采用了双向的Transformer编码器，通过将上下
文的信息融合到表示中，提供了更全面的语境理解能力。Bert主要应用于词嵌入、文本分类、
命名实体识别等任务。
总体上说，Bart侧重于生成式任务和文本生成，而Bert侧重于上下文表示和语境理解。它们在模型
结构和应用场景上存在一定的差异。

七、gpt3和gpt2的区别？

GPT-3和GPT-2是由OpenAI开发的两个语言模型。它们的区别主要在于规模和功能上的不同。
GPT-3是目前最大的语言模型，具有1750亿个参数，而GPT-2则有15亿个参数。
由于GPT-3规模更大，它在自然语言处理任务上的表现更好，并且能够生成更连贯、更具逻辑性的
文本。GPT-3还支持零样本学习，即可以在没有对特定任务进行显式训练的情况下执行各种语言任
务。
另一个区别是GPT-3在文本生成方面的能力更强大，可以生成更长的文本，而GPT-2的生成长度有
一定的限制。此外，GPT-3的使用需要更高的计算资源和成本。

知识星球

BERT基础教程：Transformer大模型实战
No ratings yet
BERT基础教程：Transformer大模型实战
285 pages
【R231】使用ChatGPT常用场景和技巧
No ratings yet
【R231】使用ChatGPT常用场景和技巧
85 pages
Sentence Bert介绍
No ratings yet
Sentence Bert介绍
10 pages
1. DeepSeek：从入门到精通 2025
No ratings yet
1. DeepSeek：从入门到精通 2025
104 pages
ChatGPT 教程-高级篇&技巧篇
No ratings yet
ChatGPT 教程-高级篇&技巧篇
23 pages
Instructor：能遵循instruction的句向量模型
No ratings yet
Instructor：能遵循instruction的句向量模型
9 pages
ChatGPT从入门到精通 2023年5月版
No ratings yet
ChatGPT从入门到精通 2023年5月版
116 pages
大模型简史
No ratings yet
大模型简史
26 pages
《如何高效向GPT提问》任康磊
No ratings yet
《如何高效向GPT提问》任康磊
185 pages
AI大模型集训班Keynote Week1
No ratings yet
AI大模型集训班Keynote Week1
117 pages
1 自然语言处理模型
No ratings yet
1 自然语言处理模型
7 pages
万字长文解读：ChatGPT的前世今生
No ratings yet
万字长文解读：ChatGPT的前世今生
24 pages
ChatGPT 从语言知识到知识库
No ratings yet
ChatGPT 从语言知识到知识库
37 pages
吴恩达联合OpenAI制作《面向开发者的ChatGPT提示工程》笔记
No ratings yet
吴恩达联合OpenAI制作《面向开发者的ChatGPT提示工程》笔记
46 pages
如何高效向GPT提问
No ratings yet
如何高效向GPT提问
228 pages
OpenAI：GPT 最佳实践中文大白话版本 - 未来力场编译
No ratings yet
OpenAI：GPT 最佳实践中文大白话版本 - 未来力场编译
38 pages
【艾瑞咨询】ChatGPT浪潮下，看中国大语言模型产业发展
No ratings yet
【艾瑞咨询】ChatGPT浪潮下，看中国大语言模型产业发展
30 pages
基于预训练语言模型的检索匹配式知识图谱问答系统
No ratings yet
基于预训练语言模型的检索匹配式知识图谱问答系统
10 pages
Bert系列之句向量生成 NLP日志
No ratings yet
Bert系列之句向量生成 NLP日志
16 pages
Index
No ratings yet
Index
24 pages
221900131 马铭浩作业二
No ratings yet
221900131 马铭浩作业二
11 pages
LLM-v1 0 0
No ratings yet
LLM-v1 0 0
373 pages
深度学习入门：基于Python的理论与实现
No ratings yet
深度学习入门：基于Python的理论与实现
419 pages
NLP第二讲
No ratings yet
NLP第二讲
65 pages
DeepSeek从入门到精通20250207
No ratings yet
DeepSeek从入门到精通20250207
104 pages
1、DeepSeek从入门到精通（清华大学）
No ratings yet
1、DeepSeek从入门到精通（清华大学）
104 pages
《自然语言处理基于预训练模型的方法》笔记
No ratings yet
《自然语言处理基于预训练模型的方法》笔记
62 pages
HuggingFace自然语言处理详解 - 基于BERT (Z-Library)
No ratings yet
HuggingFace自然语言处理详解 - 基于BERT (Z-Library)
310 pages
ChatGPT新手从0到1入门攻略
No ratings yet
ChatGPT新手从0到1入门攻略
25 pages
深度学习与人类语言处理 (下) Text
No ratings yet
深度学习与人类语言处理 (下) Text
64 pages
Index
No ratings yet
Index
34 pages
Lecture 01
No ratings yet
Lecture 01
26 pages
ChatGPT新手从0到1入门攻略
No ratings yet
ChatGPT新手从0到1入门攻略
24 pages
Bert
No ratings yet
Bert
27 pages
chatGPT02 PDF
No ratings yet
chatGPT02 PDF
20 pages
chatGPT01 PDF
No ratings yet
chatGPT01 PDF
23 pages
基于BERT和BiLSTM的方面级情感分类模型戴薇
No ratings yet
基于BERT和BiLSTM的方面级情感分类模型戴薇
5 pages
The Second Half：一位 OpenAI 科学家的 AI 下半场启示录
No ratings yet
The Second Half：一位 OpenAI 科学家的 AI 下半场启示录
13 pages
ChatGPT InstructGPT详解
No ratings yet
ChatGPT InstructGPT详解
14 pages
吴恩达提示词工程林肯整理版
No ratings yet
吴恩达提示词工程林肯整理版
57 pages
ChatGPT狂飙破壁，现象级AI应用引发范式革命
No ratings yet
ChatGPT狂飙破壁，现象级AI应用引发范式革命
25 pages
自然语言处理ch10
No ratings yet
自然语言处理ch10
66 pages
2023 04 14 南京航空航天大学 Chatgpt的前世今生
No ratings yet
2023 04 14 南京航空航天大学 Chatgpt的前世今生
465 pages
DeepSeek最强使用攻略，放弃复杂提示词，直接提问效果反而更好？
No ratings yet
DeepSeek最强使用攻略，放弃复杂提示词，直接提问效果反而更好？
6 pages
NK 29
No ratings yet
NK 29
13 pages
01- 国产AI大模型探索
No ratings yet
01- 国产AI大模型探索
200 pages
Megatron 中文翻译
No ratings yet
Megatron 中文翻译
15 pages
19条DeepSeek R1使用经验 - AI进化论-花生
No ratings yet
19条DeepSeek R1使用经验 - AI进化论-花生
29 pages
【资料】Prompt Engineering 提示词工程
No ratings yet
【资料】Prompt Engineering 提示词工程
21 pages
ChatGPT技术解构与思考升级 0315 定稿
No ratings yet
ChatGPT技术解构与思考升级 0315 定稿
51 pages
Text Mining in R
No ratings yet
Text Mining in R
29 pages
DeepSeek问答技巧与应用实践 for管理学院分享
No ratings yet
DeepSeek问答技巧与应用实践 for管理学院分享
28 pages
(译) AI Agent（智能体）技术白皮书（Google，2024）
No ratings yet
(译) AI Agent（智能体）技术白皮书（Google，2024）
15 pages
时间、信息与人工智能
No ratings yet
时间、信息与人工智能
11 pages
03 ChatGPT原理
No ratings yet
03 ChatGPT原理
78 pages
Z002综合能力（二）考试指南（2025年）
No ratings yet
Z002综合能力（二）考试指南（2025年）
9 pages
LLM - 80min (v5)
No ratings yet
LLM - 80min (v5)
84 pages
计算机辅助翻译评价系统中的翻译质量评估王金铨
No ratings yet
计算机辅助翻译评价系统中的翻译质量评估王金铨
6 pages
第2章大语言模型架构
No ratings yet
第2章大语言模型架构
63 pages
Chinese
No ratings yet
Chinese
30 pages
语音识别的研究与发展何湘智
No ratings yet
语音识别的研究与发展何湘智
4 pages
Stable Diffusion 提示词指南书
No ratings yet
Stable Diffusion 提示词指南书
105 pages
亿欧智库 - 2024中国大模型发展要素洞察报告 -语料、算力、电力研究
No ratings yet
亿欧智库 - 2024中国大模型发展要素洞察报告 -语料、算力、电力研究
30 pages
75-GPT 经验篇
No ratings yet
75-GPT 经验篇
3 pages
04 文字生成 AI
No ratings yet
04 文字生成 AI
60 pages
计算机辅助翻译评价系统中的翻译质量评估王金铨
No ratings yet
计算机辅助翻译评价系统中的翻译质量评估王金铨
6 pages