Fine tuning学习

本次学习不过多展开底层数学推导，重点放在大模型微调的概念与主流方法。

一、大模型微调的基础理论

模型在大规模无标签数据上学习语言统计规律和通用知识，属于无监督学习过程。这个阶段得到的是通用“基座模型”。

在特定任务或领域数据上继续训练，对参数进行有针对性的调整，使模型更适合具体应用场景。

微调可以理解为对模型进行“专项训练”，让模型在特定领域更专业，例如：

微调的核心价值是让通用模型具备更精细的任务能力，例如：

并且模型可以多轮微调，逐步优化能力边界。

调整模型全部层和参数，通常效果上限高，但计算与显存成本也最高。

PEFT（Parameter-Efficient Fine-Tuning）通过只训练少量参数来适配新任务，核心优势是：

常见 PEFT 方法包括：LoRA、QLoRA、Adapter Tuning、Prefix Tuning、Prompt Tuning、P-Tuning、P-Tuning v2 等。

LoRA（Low-Rank Adaptation）通过在目标权重旁路引入低秩矩阵更新项，实现“少参数微调”：

形式上可写为：$W’ = W + AB$。

优点：参数量小、训练高效、对原模型破坏小。

QLoRA 在 LoRA 的基础上引入量化技术，在保持较好效果的同时进一步降低显存占用，适合资源受限场景。