Skip to content
进阶

一句话答案

Prompt 设计核心:角色设定 + 清晰指令 + 示例(Few-shot)+ 思维链(CoT)+ 结构化输出约束。

核心要点

四阶段对比:

1. 预训练(Pre-training)

  • 目标:让模型学习语言的基础知识和通用能力
  • 方式:在海量文本(互联网语料)上做无监督学习,预测下一个 token(CLM)
  • 产物:基础语言模型(Base Model),能续写文本,但不会对话
  • 成本:极高(GPT-4 预训练耗资数亿美元)

2. 有监督微调(SFT, Supervised Fine-tuning)

  • 目标:让模型学会"听从指令",变成 Instruction-following 模型
  • 方式:在(指令, 回复)对数据集上做有监督训练,模型权重被修改
  • 产物:能对话、能跟随指令的模型(如 ChatGPT 之前那步)
  • 微调属于后训练(Post-training),不是预训练

3. 强化学习(RLHF, Reinforcement Learning from Human Feedback)

  • 目标:进一步对齐人类价值观,提升安全性和有用性
  • 步骤:
    1. 收集人类对模型输出的偏好排序
    2. 训练 Reward Model(奖励模型)
    3. 用 PPO(近端策略优化)算法,以 Reward Model 为信号优化 LLM
  • DPO(Direct Preference Optimization):更简洁的替代方案,直接用偏好数据训练,不需要单独的 Reward Model

4. Prompt 工程(Prompt Engineering)

  • 目标:不修改模型权重,通过精心设计输入来引导模型输出
  • 方式:Zero-shot / Few-shot / CoT / ReAct 等
  • 成本:最低,无需训练,迭代快
追问与易错

追问方向:

  • 这个概念在你的项目中是怎么应用的?
  • 和相关技术/方案相比有什么优劣?
  • 如果出了问题你会怎么排查?

易错点:

  • ❌ 只知道概念不知道原理——面试官会追问底层实现
  • ❌ 缺乏实际使用经验——结合项目场景回答更有说服力

💡 记忆锚点

LLM四阶段像培养一个员工:预训练是上大学(海量语料学语言基础,成本极高),SFT是岗前培训(指令-回复对教会"听指令"),RLHF是师傅带徒弟(人类偏好反馈对齐价值观),Prompt工程是每次布置任务时把需求说清楚(不改模型,零成本迭代)。Prompt技巧口诀:"定角色+给指令+举例子(Few-shot)+要推理(CoT)+约格式"。