【Datawhale之Happy-LLM】Github最火大模型原理与实践教程task01精华~
本文介绍了NLP(自然语言处理)的研究内容,对比了PLM(预训练语言模型)和LLM(大语言模型)的区别,指出LLM在数据规模、参数量和训练策略上的改进使其具备涌现能力。同时推荐了Datawhale三个开源LLM学习项目:Self-LLM(部署教程)、LLM-Universe(应用开发)和Happy-LLM(原理实践)。作者感叹LLM让计算机通过参数学习人类语言的奇妙性。
·
Task01:项目介绍 + 前言
(这是笔者自己的学习记录,仅供参考,原始学习链接见最下面,愿 LLM 越来越好❤
1. NLP 主要研究什么?
NLP(Natural Language Processing,自然语言处理)
主要聚焦:计算机如何 理解、处理、生成 人类的语言。
2. LLM vs PLM:两种模型分别是什么?
简称 | 全称 | 中文 | 时代定位 |
---|---|---|---|
LLM | Large Language Model | 大语言模型 | 当下最火的模型,NLP的衍生成果 |
PLM | Pretrain Language Model | 预训练语言模型 | NLP 过去的主流模型 |
3. LLM 在 PLM 基础上有什么改进?
维度 | PLM(如 BERT、GPT-1/2) | LLM(如 GPT-3/4、Qwen、ChatGLM 等) |
---|---|---|
训练数据规模 | 相对较小 | 海量数据 |
参数量 | 百万~十亿级 | 十亿~千亿级 |
微调方式 | 需要一定量的监督数据 | 指令微调 + RLHF(人类反馈强化学习) |
能力特征 | 单一任务表现好 | 涌现能力(Emergent Ability) - 上下文学习(In-context Learning) - 指令理解(Instruction Following) - 高质量文本生成 |
一句话总结:
模型更大(参数量大了) + 数据更多(预训练数据规模) + 训练策略更先进 ⇒ LLM 能力“chua”一下爆发!
4. Datawhale 相关开源项目一览
项目名称 | 定位 | 在线地址 |
---|---|---|
Self-LLM (开源大模型食用指南) |
为开发者提供一站式开源 LLM 部署、推理、微调的使用教程 | https://github.com/datawhalechina/self-llm |
LLM-Universe (动手学大模型应用开发) |
指导开发者从零开始搭建自己的 LLM 应用 | https://github.com/datawhalechina/llm-universe |
Happy-LLM (从零开始的大语言模型原理与实践) |
深入 LLM 原理 + 动手复现 LLaMA2 | https://github.com/datawhalechina/happy-llm |
笔者一点点感受:
LLM真的很奇妙,它让计算机用计算的方式能够生成人类语言,明明只是0101,却通过各种参数使得人类的语言符号被学习、理解、生成。虽然机器不像人类那样有脑子🧠,但是也感觉到很奇妙,似乎发现了更广阔神秘的天地。
更多推荐
所有评论(0)