Prompt工程最佳实践 | Java后端面试知识库

一句话答案

Prompt 设计核心：角色设定 + 清晰指令 + 示例（Few-shot）+ 思维链（CoT）+ 结构化输出约束。

核心要点

四阶段对比：

1. 预训练（Pre-training）

目标：让模型学习语言的基础知识和通用能力
方式：在海量文本（互联网语料）上做无监督学习，预测下一个 token（CLM）
产物：基础语言模型（Base Model），能续写文本，但不会对话
成本：极高（GPT-4 预训练耗资数亿美元）

2. 有监督微调（SFT, Supervised Fine-tuning）

目标：让模型学会"听从指令"，变成 Instruction-following 模型
方式：在（指令, 回复）对数据集上做有监督训练，模型权重被修改
产物：能对话、能跟随指令的模型（如 ChatGPT 之前那步）
微调属于后训练（Post-training），不是预训练

3. 强化学习（RLHF, Reinforcement Learning from Human Feedback）

目标：进一步对齐人类价值观，提升安全性和有用性
步骤：
1. 收集人类对模型输出的偏好排序
2. 训练 Reward Model（奖励模型）
3. 用 PPO（近端策略优化）算法，以 Reward Model 为信号优化 LLM
DPO（Direct Preference Optimization）：更简洁的替代方案，直接用偏好数据训练，不需要单独的 Reward Model

4. Prompt 工程（Prompt Engineering）

目标：不修改模型权重，通过精心设计输入来引导模型输出
方式：Zero-shot / Few-shot / CoT / ReAct 等
成本：最低，无需训练，迭代快

追问与易错

追问方向：

这个概念在你的项目中是怎么应用的？
和相关技术/方案相比有什么优劣？
如果出了问题你会怎么排查？

易错点：

❌ 只知道概念不知道原理——面试官会追问底层实现
❌ 缺乏实际使用经验——结合项目场景回答更有说服力

💡 记忆锚点

LLM四阶段像培养一个员工：预训练是上大学（海量语料学语言基础，成本极高），SFT是岗前培训（指令-回复对教会"听指令"），RLHF是师傅带徒弟（人类偏好反馈对齐价值观），Prompt工程是每次布置任务时把需求说清楚（不改模型，零成本迭代）。Prompt技巧口诀："定角色+给指令+举例子（Few-shot）+要推理（CoT）+约格式"。

一句话答案 ​

一句话答案