大模型技术基础

Paper-Dragon2025/6/5...大约 5 分钟

大模型技术基础

大语言模型概念

定义：通常指具有超大规模参数的预训练模型

架构：主要为transformer解码器架构

训练：

预训练（base model) 建立模型的基础能力
- 数据：海量文本数据
- 优化：预测下一个词
后训练 (instruct model) 增强模型的任务能力
- 数据：大量指令数据
- 优化： SFT、RL等方法
下游应用
- 测速（推理）

训练阶段对比

对比方面	预训练 (Pre-training)	后训练 (Post-training)
核心目标	建立模型基础能力	将基座模型适配到具体应用场景
数据资源	数万亿词元的自然语言文本	数十万、数百万到数千万指令数据
所需算力	耗费百卡、千卡甚至万卡算力数月时间（大致估计）	耗费数十卡、数百卡数天到数十天时间（大致估计）
使用方式	通常为few-shot提示	可以直接进行zero-shot使用

此部分算力估计为一个大致估计，需要根据模型大小、数据数量、训练框架等多方面因素确定

大语言模型构建概览

大语言模型预训练（Pre-training)

使用与下游任务无关的大规模数据进行模型参数的初始训练
- 基于Transformer解码器架构，进行下一个词预测
- 数据数量、数据质量都比较关键

大语言模型后训练（Post-training)

指令微调（Instruction Tuning)v 【有人也叫SFT】
- 使用输入与输出配对的指令数据对于模型进行微调
- 提升模型通过问答形式进行任务求解的能力

人类对齐（Human Alignment）
- 将大语言模型与人类的期望、需求以及价值对齐。
- 基于人类反馈的强化学习对齐（RLHF）。

扩展定律

什么是扩展定律

通过扩展参数规模、数据规模和扩大算力，大语言模型的能力会出现显著提升
扩展定律再本次大模型浪潮中起到了重要作用

KM扩展定律

OpenAI团队建立了神经语言模型性能与参数模型（N）、数据规模（D）和计算算力（C）之间的幂律关系

Chinchilla扩展定律

DeepMind团队于2022年提出另一种形式的扩展定律，旨在指导大语言模型充分利用给定的酸锂资源优化

深入讨论

模型的语言建模损失可以进行下述分解

$L(x)=\underbrace{L_{\infty}}{\text {不可约损失 }}+\underbrace{\left(\frac{x{0}}{x}\right)^{\alpha_{x}}}_{\text {可约损失 }}$

可约损失：真实分布和模型分布之间KL散度，可通过优化减少

不可约损失：真实数据分布的熵，无法通过优化减少

扩展定律可能存在边际效益递减

随着模型参数、数据数量的扩展，模型性能的增益将逐渐减小
目前开发数据已经接近枯竭，难以支持扩展定律的持续支持

可预测的扩展（Predictable Scaling）

使用小模型性能去预估大模型性能，或帮助超参数选择
训练过程中使用模型早期性能来预估后续性能

涌现能力

什么是涌现能力？

原始论文定义：在小模型中不存在、但在大模型中出现的能力
模型扩展到一定规模时，特定任务性能突然出现显著跃升趋势，远超随机水平

涌现能力可以部分归因于评测设置

本教程定义其为“代表性能力”，并不区分是否在小模型中存在

代表性能力

指令遵循（Instruction Following）

大语言模型能够按照自然语言指令来执行对应的任务

上下文学习（In-context Learning)

在提示中为语言模型提供自然语言指令和任务示例，无需显式梯度更新就成为测试样本生成预期输出。

逐步推理（Step-by-step Resoning)

在提示中引入任务相关的中间推理步骤来加强复杂任务的求解，从而获得更可靠的答案

涌现能力与扩展定律的关系

涌现能力和阔扎定律是两种描述规模效应的度量方法

总结

大模型核心技术

规模扩展：扩展定律奠定了早期大模型的技术路线，产生了巨大的性能提升。
数据工程：数据数量、数据质量以及配置方法极其关键
高效预训练：需要建立可预测、可扩展的大规模训练架构
能力激发：预训练后可以通过微调、对其、提示工程等技术进行能力激活
人类对其：需要设计对齐技术减少模型使用风险，并进一步提升模型性能
工具使用：使用外部加强模型的弱点，拓展其neng'li

更新日志

2025/6/6 02:20

查看所有更新日志

84887-扩展法则、涌现能力于 2025/6/6
579a4-1.2于 2025/6/5
bb8a1-src/note-book/AI-Training/大语言模型基础.md于 2025/6/5