Contents
1 前言
从我之前关于 RAG、知识库的文章中,经常会出现一个词——向量,可以说,向量是 AI 的核心概念之一。只要对 AI 有所接触的朋友,对这个词可能都不陌生。
其实,就算不是因为 AI,大家对向量也应该不陌生:在学校的时候,老师可能会让你画箭头、写坐标,或者在几何题里算长度和方向。没错,AI 里说的向量,和我们记忆里的那个数学概念其实是一个意思:它本质上是一组数字,只不过维度更多,应用场景更广。
那么,为什么向量在 AI 里如此重要呢?原因很简单——计算机并不能直接理解人类的词汇,它看到的只是数字和符号。比如“苹果”这个词,对我们来说有具体的意义和画面,但对计算机来说,只是一串字符而已。为了让计算机能理解、处理、甚至找到不同对象之间的关系,就需要一个桥梁,而这个桥梁就是向量。
在 AI 的世界里,每一段文字、每一个词,甚至一张图片、一段音乐,都可以用向量来表示。向量把抽象的事物转化为数字世界里的“点”,让计算机能够在这个空间里进行运算和比较,从而理解它们的关系。这也正是为什么在 RAG、知识库检索、推荐系统等场景里,向量是底层核心:没有向量,AI 很难把我们的语言、图像、声音转换成可操作的信息。
所以在接下来的内容里,我会慢慢拆开向量的概念,看看它到底是什么,能做什么,以及为什么它如此不可或缺。无需公式,也不需要高深理论,只要轻松理解,就能掌握 AI 的一块核心底层逻辑。
2 向量到底是什么?
其实啊,你完全可以把向量理解成 AI 世界里的“通用语言”。人类说“苹果”“香蕉”,计算机根本不懂这些词,它看到的只是数字。于是,我们就给每个词、每句话,甚至一张图片、一段音乐,都分配一个数字坐标,就像在地图上标点一样。
打个直观的例子:
- 在二维空间里,一个点可以用 (x, y) 来表示,比如 (3, 4)。这就像在平面地图上标了一个位置。
- 如果是三维空间,就多了一个 z 坐标,比如 (3, 4, 5),就像在三维房间里标记一个点。

AI 的向量就是把维度拉得更高——可能有 128 维、512 维甚至上千维——每一维都是一个特征方向的数字。听起来复杂,但逻辑和二维、三维完全一样:每个数字都是一个坐标轴,你只不过在更多维度上找到一个点。
怎么理解这些高维度呢? 可以想象:二维就像地图上的点,三维就像房间里的点,高维就像在超大仓库里,每一个方向都代表一个特征。你看不见这些维度,但每一个维度都是有意义的,比如颜色、形状、风格、情绪等等。向量就是用数字把这些特征都标记出来,让计算机能在高维空间里找到每个对象的位置。
那么,AI 如何判断不同向量对应的人类词汇语义是否相近呢?原理其实很直观:AI 会计算两个向量之间的“距离”或“角度”,距离越近的向量表示语义越相似。比如“苹果”和“香蕉”的向量距离很近,而“苹果”和“电视”的向量距离很远。
这个判断有啥用呢?场景多着呢:
- 语义检索:当你搜索一个词,AI 可以找到向量空间里离它最近的内容,而不是仅仅匹配完全相同的文字。
- 推荐系统:你喜欢某首歌,AI 就能找到向量空间里离它最近的歌曲推荐给你。
- 聚类和分类:AI 能根据向量的距离把相似内容归在一起,方便理解和处理大规模信息。
打个生活化的比方,你去超市买水果,走到水果区,你会看到苹果、橘子、香蕉挨在一起,这就是它们在“水果空间”里的距离很近。而冰箱、电饭煲啥的就在电器区,离水果区很远。向量就是让计算机在语义世界里自己画出这样的“商场地图”,帮它区分不同类别的事物。
再举个有趣的例子:想象你有一堆歌单,分别是流行、摇滚、古典,你希望 AI 给你推荐你可能喜欢的歌。如果不把歌曲变成向量,AI 根本不知道“你喜欢的歌”和“邻居那首歌”的关系。把歌曲用向量表示之后,AI 就能直接根据距离来找邻居——离你喜欢的歌最近的,就是它认为你可能喜欢的下一首歌。
向量的厉害还不止于此,你甚至可以在向量空间里做“算术”:比如用“国王 – 男人 + 女人”得到“女王”。听起来像魔法,其实只是向量在高维空间里的巧妙运算:你在数字世界里做一次“方向移动”,就能得到新的语义点。
总之,向量就是 AI 在语义世界里的底层语言,它让 AI 能够“理解”文字、图片、声音,甚至你的偏好。理解了向量,你就基本掌握了 AI 世界里的一张核心地图。
3 向量是怎么让 AI 聪明起来的?
3.1 语义搜索:AI 的以意搜意
大家平时在百度、谷歌、淘宝里搜东西,其实就是一种搜索。但传统搜索有个明显的局限:它只会“按字面匹配”。举个例子,你在搜索框里敲“猫”,它会把包含“猫”字的网页、商品、帖子统统找出来——但如果某个网页里只写了“喵星人”,或者“可爱的宠物”,传统搜索就未必能抓住。
这就是关键词搜索的最大问题:它只能看字面,不能懂语义。
那 AI 是怎么解决的呢?答案就是向量。AI 会先把每个词、每句话都转成向量,放进“语义空间”里:

这样一来,当你搜索“可爱的动物”时,AI 不只是傻傻地找“动物”这两个字,而是去语义空间里找和“可爱的动物”向量最近的那些点,结果,“猫咪”“小狗”“小鸡”都可能被找出来:

这就是所谓的 语义搜索,也可以叫“以意搜意”。想象一下:传统搜索 = 在书架上死磕关键词目录;向量搜索 = 在书店里问店员:“我想找点轻松有趣的小说”,结果店员立刻带你去村上春树和东野圭吾的书架前,是不是更聪明?
这种能力,正是现在 RAG(检索增强生成)等 AI 技术的底层支撑。ChatGPT 能从知识库里帮你找答案,靠的就是“语义搜索”,而不是“死盯关键字”。
3.2 推荐系统:找到你最可能喜欢的“邻居”
除了搜索,向量还有一个大家天天接触却可能没注意到的应用——推荐系统。你有没有过这样的体验:
- 在网易云音乐听了一首歌,接下来推的几首居然正合你胃口;
- 在抖音刷到一个搞笑视频,往下滑又是一大堆同类型的;
- 在淘宝买了一个杯子,马上给你推荐了保温壶、茶叶罐、桌面收纳盒……
看起来好像 AI 在“读心术”,其实背后真正发挥作用的是向量。逻辑其实很简单:每首歌、每个视频、每件商品,都可以被转成一个向量;你听过的歌、看过的视频、买过的商品,也都有对应的向量。在高维的语义空间里,这些向量会自然地“自己分组”——类似兴趣和类别自动归类:运动员的向量会挨在一起,动物的向量聚在一块,影片、音乐、商品也各自形成簇。这样一来,当 AI 想给你推荐内容时,它不需要“知道你喜欢什么”,只要找离你已有向量最近的邻居,就能精准推荐相关内容。可以想象,向量就像在语义空间里为每件事物贴上了一张“数字标签”,距离越近,相关性越高:

推荐系统要做的,就是在这个庞大的“向量空间”里,帮你找到距离你喜欢的那些向量最近的邻居:

再打个比方:你在朋友圈里,最容易和你聊到一块去的,往往是“兴趣距离”比较近的人。在向量空间里,AI 也是一样,直接找“邻居”就行。比如,你听了一首周杰伦的《七里香》,AI 发现它在“流行音乐空间”里,邻居就是林俊杰、五月天、孙燕姿。于是,推荐栏里就出现了他们的歌。
这就是向量让 AI 变得聪明的地方:它不用硬编码什么“喜欢周杰伦=喜欢林俊杰”,而是靠计算语义上的“距离”,动态找到你最可能喜欢的东西。
3.3 多模态理解:文字、图片、声音都能装进同一个“空间”
搜索和推荐已经很直观了,但向量的威力远不止于此。它还能让 AI 跨越不同类型的数据,做到我们平时说的“多模态理解”,这是什么意思呢?
在人类世界里,我们交流是多感官的:能说话(文字)、能听声音(音频)、能看图像(视觉)。但对计算机来说,这些完全是不同形式的原始数据:文字是字符,声音是波形,图片是像素矩阵。它们天生不兼容。
那 AI 怎么才能把这些不同类型的信息“装进同一个脑子里”?答案还是向量。
AI 会把图片、文字、音频都转成向量,丢进同一个语义空间里:

这样,它们就能直接比较、建立联系,举几个直观的例子:
- 以图搜图:你上传一张猫的照片,AI 不用知道这是 JPG 还是 PNG,而是把它转成向量,然后去语义空间里找“最接近的邻居”。结果,它能帮你找出“猫咪的照片”,甚至“和猫长得像的玩偶”。
- 自动配图:写了一句“夕阳下的海边散步”,AI 可以在向量空间里找到和这句话语义接近的图片,于是就能给文章自动配上合适的插图。
- 语音识别+理解:一段语音先被转成向量,再和文字向量对齐,这样语音的内容就能和文字含义对应上。
换句话说,向量是不同模态之间的“翻译官”。它让文字、图片、声音这些原本“不说同一种语言”的数据,终于能在同一个空间里对话。
有了这一点,AI 才能玩转图文生成、语音助手、视频推荐这些复杂的应用。
3.4 AI 的“类比与推理”小技巧
向量不仅能用来“量距离”,还能做一些让人拍案叫绝的运算。还记得前面提到过的那个经典例子吗:国王 – 男人 + 女人 = 女王?
这不是玄学,而是向量空间里的数学结果。为什么会这样?因为在训练过程中,AI 学到的向量并不只是“孤立的点”,而是带有语义方向的。比如:“男人 → 女人” 代表一种性别上的变化;“国王 → 女王” 也是同样的变化。
所以当你在向量空间里做 减法+加法,本质上就是在“沿着相同的语义方向移动”。于是,你自然就能得到“女王”这个点:

这类运算的神奇之处在于:它让 AI 拥有了某种类比和推理的能力。再举几个轻松的例子:“巴黎 – 法国 + 日本 ≈ 东京”,“iPhone – 苹果 + 三星 ≈ Galaxy”,“程序员 – 白天 + 晚上 ≈ 熬夜码字的人” ~。
当然,最后这个是开玩笑啦,但它说明了一个事实:向量不仅能表示语义,还能让语义之间的关系变得“可计算”。
这就是为什么向量被称为 AI 的“底层语言”:它不仅能帮助 AI 存储和检索知识,还能让 AI 在某种程度上玩转逻辑和推理。
3.5 小结:向量——AI 的思维坐标系
过前面四个小节,我们可以看到,向量不仅仅是数字的集合,它更像是 AI 的思维坐标系。
- 在语义搜索里,向量让 AI 能“以意搜意”,不再死盯字面,而是理解意思;
- 在推荐系统里,它帮 AI 找到你最可能喜欢的“邻居”,让内容推送更精准;
- 在多模态理解里,不同类型的数据都能进入同一个空间,实现跨模态比较和匹配;
- 在向量运算里,语义关系可以像做算术一样被计算出来,让 AI 具备类比和推理能力。
简单来说,向量把杂乱、复杂、难以直接处理的信息,变成了 可计算、可比较、可推理的点。它让 AI 从“看不懂世界的数字机器”,变成了能够在语义空间里理解、推荐、类比的智能系统。
理解了向量,你就基本掌握了 AI 能力背后的底层逻辑。这不仅有助于你理解 ChatGPT、RAG、知识库等工具的工作原理,也能为后续探索 AI 的各种应用打下坚实基础。
4 向量在知识增强生成里的应用
4.1 简略回顾 RAG 基础理论
在前面我已经介绍过 RAG 核心概念和流程(参见文章:家庭数据中心系列 从零理解 RAG(一):原理与完整流程解析),并通过 Chatbox 和 Ollama 做过知识库实战,构建了自己的嵌入模型并完成了 GPT 模型对知识库内容的检索(参见文章:家庭数据中心系列 使用Ollama自建嵌入模型 + Chatbox 知识库实战)。本章不再重复操作细节,而是希望在此基础上进一步理解向量在知识增强生成中的核心作用,以及如何优化和扩展,让知识库真正“活”起来。
总的来说,RAG(检索增强生成)的核心逻辑其实很直白:提前做好准备,需要时找,再生成:
- 提前做好准备:把知识库里的内容通过嵌入模型向量化,存入向量数据库。向量化的好处是,AI 不需要理解原文,只需在数字空间里比较坐标,就能判断内容之间的相似度。
- 需要时找:当提出问题时,AI 不是逐条翻查知识库,而是在向量空间中直接找到与问题最“接近”的坐标点,也就是最相关的知识片段。
- 再生成:把检索到的内容喂给生成模型,让它输出自然、连贯、符合上下文的回答。这一步就像把零散的资料整合成一篇完整的文章或建议。
打个生活化比喻:想象你已经在图书馆里建立了自己的知识索引,每篇文章、每段文字都被标上了坐标(向量):
- 当你提出问题时,AI 不用再翻整本书,而是直接在向量空间里找到离你最近的“坐标点”,也就是最相关的内容。
- 之后生成模型根据这些内容整合答案,就像图书馆管理员把最贴切的书摘和参考资料整理成一篇自然可读的建议。
可以这么理解:向量就像给每本书和每段文字做了一个“数字定位”,让 AI 能够在知识海洋里迅速找到“你要的那个点”,同时还能理解这些点之间的关系,从而生成有逻辑、有条理的回答。
4.2 向量在 Chatbox/Ollama 知识库里的实际作用
在前一节我们说了 RAG 的核心逻辑,而这一切的核心就是向量。简单说,向量就像 AI 的“指南针”,帮它在知识海洋里找到最相关的信息。没有向量,AI 就像一个没有地图的图书管理员,找资料既慢又容易出错。
在 Chatbox 和 Ollama 知识库实战中,向量主要有几个“显而易见”的作用:
- 帮 AI 快速找到最相关的内容
- 你把文章切成小段,每段都生成一个向量,就像每段文字在知识空间里有了自己的坐标。
- 当你问一个问题,AI 就直接去找距离最近的坐标点,也就是最相关的内容,而不需要从头到尾翻全文。
- 决定回答的精准程度
- 向量的维度和生成方式会影响匹配效果。维度高一点,AI能抓住更多细微语义,但计算稍慢;维度低一点,速度快,但可能错过一些意思。
- 就像你找书,如果只记大类(比如“数学”),可能找不到具体章节;记得越详细(比如“线性代数向量部分”),找到的内容越精准。
- 帮助理解上下文
- 在知识库问答里,用户的问题往往是一问接一问。向量能帮 AI“记住上文”,把上下文串起来,让回答更连贯自然。
- 类似于图书馆管理员知道你之前借过哪些书,所以能推荐更贴合你需求的资料,而不是每次都从零开始找。
- 方便扩展和优化
- 向量检索让知识库容易扩展:加入新文档后生成向量放进数据库,AI就能马上利用新资料。
- 你甚至可以把文字、图片、表格都变成向量放到同一个“知识地图”里,实现跨内容类型的智能检索。
总结一下:向量在知识库里的作用,就是给 AI 一张“数字地图”,让它快速定位、找到相关内容,并生成符合上下文的自然回答。理解了向量的实际作用,你就不仅会操作知识库,还能知道为什么它能这么聪明。
5 向量在更多 AI 场景中的应用
前几章我们讲了向量在文本知识库和 RAG 中的作用,让 AI 能理解文字、快速检索相关内容并生成自然回答。实际上,向量的魔力远不止于文本,它几乎贯穿了现代 AI 的各种应用场景。
图像搜索:想象你在整理相册,每张照片都有不同特征——人物、颜色、场景、光线……AI 把这些特征都转换成向量。比如你想找背景里有太阳的照片,AI 就能直接在向量空间里找到这些照片,而不需要你手动翻找。
音乐推荐:每首歌的旋律、节奏、风格都可以生成向量。你最近在听轻快的吉他曲,AI 根据向量找到相似节奏、风格的其他曲子推荐给你,就像你在水果店挑苹果时,店主顺手帮你挑出口味相近的梨或橘子。
视频剪辑与推荐:AI 可以把视频中的画面、动作、音轨信息都转成向量。比如你想剪一段风格欢快、阳光明媚的短视频,AI 会自动在素材库里找到类似风格和色调的片段帮你组合,节省手工筛选的时间。
跨模态应用:文字、图片、音频都可以映射到同一个向量空间。比如你写下“想听一首轻柔的钢琴曲配这张海边日落的照片”,AI 能直接在向量空间里找到最契合的音乐,而不需要人工去匹配文字和音频。
生活化理解一下,向量就像给每种信息贴上“数字标签”,不论是文字、图片还是音乐,AI 都能在多维空间里快速找到相似的东西,做推荐、生成或匹配。
总之,理解了向量在文本之外的应用,你就会发现它不仅是知识检索的底层工具,更是 AI 在多种场景下做智能判断和推荐的通用语言。它的核心逻辑依然统一:数字化表示 → 多维空间计算 → 找相似/匹配 → 输出结果,只是应用的素材和场景更丰富、更生动了。
或许你读到这里会有个疑问:向量不就是一串数字吗,它怎么能表示‘太阳’、‘摇滚’、‘搞笑视频’这种人类的语义?
答案其实很朴素——这背后靠的是模型的训练。无论是图片里的像素点,还是音乐里的频率,或者用户的行为习惯,AI 都会在大量数据和语境中学会提取“模式”。这些模式最后会被压缩进向量里,于是向量就成了一种“数字化的语义标签”。
举几个类比:
- 在图像里,某种像素和颜色的组合会被模型理解成“太阳”或者“海滩”;
- 在音乐里,节奏与旋律的特征可能对应“摇滚”或“舒缓”;
- 在视频里,画面和声音一起决定了它更接近“动作场景”还是“喜剧片段”;
- 在推荐里,用户的浏览与选择习惯会被抽象成“爱吃甜食的人”或“偏好科幻片的观众”。
所以说,向量并不是凭空“知道”这些东西,而是通过学习,把复杂的信息压缩到统一的数字空间里。换句话说,向量就是不同模态间的“语义翻译器”,它让 AI 能够在文字、图像、音频、视频,甚至用户偏好之间,建立起一张通用的语义地图。
6 总结与后话
写到这里,你大概能感受到:向量不是数学书里的抽象符号,而是 AI 世界里的一种通用语言。
它把人类的文字、图片、声音,甚至喜好,都翻译成数字坐标,让计算机能够在“语义地图”里找到位置、测量距离、理解关系。
在第2章我们说过,向量就像超市里的分区,把苹果、香蕉放在一块儿,把电器放在另一块儿;在第3章又看到它能让 AI 通过“距离”来判断语义相近,从而聪明地回答问题;到第4章的 RAG 里,它成为知识库的底层支撑,帮模型从浩瀚的信息中迅速找到关键内容;第5章更展示了它在图像、音乐、视频、跨模态等各种场景里的广泛应用。
所以,你要记住一句话就够了:理解向量,几乎就理解了 AI 的底层运作逻辑。
写这篇文章的时候,我其实也在回想自己刚接触 AI 的那种“看不懂”的感觉。很多资料讲得太学术,动辄就是公式和高维空间,让人云里雾里。但如果能把向量看作“地图”“标签”“通用语言”,你会发现它其实挺直观,甚至挺有趣的。
以后你再看到 AI 在推荐你喜欢的歌、帮你整理相册、或者从知识库里秒答问题时,也许就能在心里默默说一句:哦,这背后跑的就是向量。
大佬这篇文章写的好呀,通俗易懂,是面向读者的好文章
有眼光!我也是这么觉得的~
这种写作后续要学习学习,更好面对读者(而不是面对作者),毕竟博客是写出去给别人看的(甚至是给几年后的自己看的,那是的自己啥都忘记了都)
是的,而且我写这篇文章,是因为之前一些AI相关的文章,还有之后一些文章,经常都要涉及到向量,我不可能每篇文章都去解释一遍,所以干脆专门用一篇文章来讲清楚,以后需要的时候只需要贴这篇文章的链接就行了。
谢谢大佬(^-^),后续多交流
别客气,不是什么大佬,还要感谢你来评论。