Skip to content
进阶

一句话答案

Embedding 将文本映射为稠密向量,语义相似的文本向量距离近,是 RAG 检索的基础。

核心要点

选型考虑: 向量维度 / 语言支持 / 性能 / 成本

常用模型: text-embedding-3-small(OpenAI) / bge-large(开源) / m3e(中文)

相似度: 余弦相似度(最常用)/ 内积 / 欧氏距离

追问与易错

追问方向:

  • 这个概念在你的项目中是怎么应用的?
  • 和相关技术/方案相比有什么优劣?
  • 如果出了问题你会怎么排查?

易错点:

  • ❌ 只知道概念不知道原理——面试官会追问底层实现
  • ❌ 缺乏实际使用经验——结合项目场景回答更有说服力

💡 记忆锚点

Embedding像给每段文本画一幅"语义指纹"(稠密向量):意思相近的文本,指纹也相近(余弦相似度高)。RAG检索的本质就是"拿问题的指纹去指纹库里找最像的文档"。选模型看三点:维度(越高越精细但越贵)、语言支持(中文选bge/m3e)、性能与成本(OpenAI方便但要钱,开源可本地部署)。