图片

正文共: 2252字 5图

预计阅读时间: 6分钟

接上篇:一文读懂:GEO(生成式引擎优化)是什么?(一)

GEO是怎么一回事儿

图片

我们先回顾下GEO的目标。

GEO最终希望实现的的目标,是当用户在各个AI大模型进行问题检索时,AI回答的内容里提及你的品牌作为答案(之一)。

大模型在「预训练」阶段并不会对全网所有的内容进行抓取。

训练前会进行严格的数据清洗,包括数据去重、过滤低质量文本、去除敏感信息等,最终保留高质且有训练价值的部分。

这样就会产生一个问题,训练数据大概率不会抓取你的品牌作为养料,并且对于地球上新出现的信息和知识,大模型在预训练阶段是无法预知的。

那为什么当我们在任一个AI大模型进行问题检索时,它总能不厌其烦的找到准确的答案呢?

答案就是:RAG(检索增强生成)

RAG的全称是Retrieval-Augmented Generation,中文名为检索增强生成。这是一种将大型语言模型与外部知识检索相结合的技术,通过在生成内容前先检索相关上下文,来提升模型输出的准确性、可靠性和时效性。

以「AI同学」参加高考为例,类比过来。

此时,它正端坐在2026年的高考语文考场。

作文的主题是:围绕博主数字游民9527的AI探索历程,展开讨论普通人如何通过AI进行提效,不少于800字。

它在前面12年的学习过程中,从来没听说过「数字游民9527」这个人姓氏名谁,如果乱写(AI幻觉)的话,保不齐就要0分了。

它很慌,肾上腺激素不断分泌,这个时候「RAG机制」就会生效。

AI同学从裤兜里悄摸的拿出提前准备好的小抄(外部知识库),翻到第9527页,找到了博主数字游民9527的相关信息。

基于小抄上的内容,AI同学get到了原来9527是这么个事儿。

然后哐哐一顿输出,洋洋洒洒整了一篇满分作文(生成答案)。

RAG的核心就是「先检索,后生成」。

当用户向AI提问时,AI会从海量文档中检索最相关的信息片段(向量检索技术),将这些片段作为上下文喂给大模型,让大模型基于这些真实的信息数据生成答案。

这里又有一个新的概念:向量检索技术。

我大概看了相关的文档内容,有点深,不适合我这个level。

原文

向量检索的本质是将语义数字化。

它通过预训练模型(如BERT、CLIP)将数据映射为高维空间中的点(向量),语义相近的内容在空间中的位置也相近。

向量化(Embedding):将“苹果”和“Apple”这两个词转化为两个高维向量。虽然字面不同,但它们在向量空间中的位置非常接近。

语义空间:在这个空间中,“苹果”和“水果”的距离,远小于“苹果”和“汽车”的距离。

AI译文

系统会把你提出的问题(安徽有哪些特产酒)和知识库里的内容转换成数学向量。

通过计算向量之间的“距离”,系统能理解“安徽特产酒”和“古井贡酒”、“口子窖”、“迎驾贡酒”、“宣酒”在语义上是相近的,从而能够精准的召回答案。

需要注意的是,向量检索技术并不是“关键词匹配”,而是让模型具备了“语义理解”的能力。

总结下来,RAG的流程大概如下。

用户提问→向量化→向量检索(在知识库中找相似)→把找到的片段喂给大模型→生成答案。


GEO好做吗

图片

如果从前文的理解来看,GEO(生成式引擎优化)太好做了。

可劲儿生产并分发品牌相关的各种内容,给AI的外部知识库加点儿料就行。

实际上,并不是想象中的这样。

要知道的是,AI现在比人类还要聪明,能力更为强大。

如果换做你是AI,一个销售可劲儿给你夸他们家的产品好,市场独有、天下第一、可遇不可求,你会相信吗?

如果不用点儿手段(连哄带骗、威逼利诱),会促成成交吗?我想大概率不会。

AI也是一样。


GEO怎么做才能有效果

图片

在GEO(生成式引擎优化)中,有两个原则至关重要,它们是EEAT和DSS。

EEAT原则

EEAT是Google提出的内容质量评估框架,在AI时代,这个原则被赋予了更高的权重,它决定了AI是否愿意引用你的内容作为权威回答。

EEAT分别对应的是:

E(Experience)- 经验

E(Expertise)- 专业性

A(Authoritativeness)- 权威性

T(Trustworthiness)- 可信度

经验是指内容是否基于亲身实践,一手的信息,具体的案例。

专业性是指内容作者是否具备领域内的知识储备和专业资质。

权威性是指内容提及的部分是否被业内广泛认可,是否被权威第三方所引用。

可信度是指内容是否准确、真实、可交叉验证。

DSS原则

这个原则是国内某公司在一个GEO相关的白皮书提出的理论,从逻辑理解和我的GEO实践来看,和EEAT是异曲同工的表述。

DSS分别对应的是:

D(Depth)- 语义深度

S(Support)- 数据支持

S(Source)- 权威来源

语义深度对应经验和专业性,数据支持、权威来源对应权威性和可信度。

这些概念、理论看起来可能有一些枯燥和不够具体。

但是当在一个具体场景下去检索某个问题的时候,大概就能从AI的回答中窥探一二。

比如,当你在国内外任一个主流的AI大模型检索「数字游民9527是谁」这个词条时,再结合我历史发布过的文章,基本上就能get到一些只可意会不可言传的点了

如果用我的理解去表述的话,GEO(生成式引擎优化)的过程大概就相当于销售在卖东西。

客户最终是否会下单(AI是否在回答中引用品牌信息),取决于多维度的考量(EEAT原则)。

你的产品行不行,口碑如何,是不是真像宣传的那样牛。

而不是在王婆卖瓜。


图片

如果你能看到这里,非常感谢你的耐心阅读。

我会在「数字游民9527」这个账号,持续分享我探索AI的各种可能性,以及遇到的有意思的人和事儿。

欢迎成为我的精神股东,等我发达了,一定请你们一条龙。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐