外观
一句话答案
Prompt 设计核心:角色设定 + 清晰指令 + 示例(Few-shot)+ 思维链(CoT)+ 结构化输出约束。
核心要点
四阶段对比:
1. 预训练(Pre-training)
- 目标:让模型学习语言的基础知识和通用能力
- 方式:在海量文本(互联网语料)上做无监督学习,预测下一个 token(CLM)
- 产物:基础语言模型(Base Model),能续写文本,但不会对话
- 成本:极高(GPT-4 预训练耗资数亿美元)
2. 有监督微调(SFT, Supervised Fine-tuning)
- 目标:让模型学会"听从指令",变成 Instruction-following 模型
- 方式:在(指令, 回复)对数据集上做有监督训练,模型权重被修改
- 产物:能对话、能跟随指令的模型(如 ChatGPT 之前那步)
- 微调属于后训练(Post-training),不是预训练
3. 强化学习(RLHF, Reinforcement Learning from Human Feedback)
- 目标:进一步对齐人类价值观,提升安全性和有用性
- 步骤:
- 收集人类对模型输出的偏好排序
- 训练 Reward Model(奖励模型)
- 用 PPO(近端策略优化)算法,以 Reward Model 为信号优化 LLM
- DPO(Direct Preference Optimization):更简洁的替代方案,直接用偏好数据训练,不需要单独的 Reward Model
4. Prompt 工程(Prompt Engineering)
- 目标:不修改模型权重,通过精心设计输入来引导模型输出
- 方式:Zero-shot / Few-shot / CoT / ReAct 等
- 成本:最低,无需训练,迭代快
追问与易错
追问方向:
- 这个概念在你的项目中是怎么应用的?
- 和相关技术/方案相比有什么优劣?
- 如果出了问题你会怎么排查?
易错点:
- ❌ 只知道概念不知道原理——面试官会追问底层实现
- ❌ 缺乏实际使用经验——结合项目场景回答更有说服力
💡 记忆锚点
LLM四阶段像培养一个员工:预训练是上大学(海量语料学语言基础,成本极高),SFT是岗前培训(指令-回复对教会"听指令"),RLHF是师傅带徒弟(人类偏好反馈对齐价值观),Prompt工程是每次布置任务时把需求说清楚(不改模型,零成本迭代)。Prompt技巧口诀:"定角色+给指令+举例子(Few-shot)+要推理(CoT)+约格式"。