在这里插入图片描述

导言:搜索范式正在转变(但并非如你所想)

一场无声的革命正在信息检索领域上演。人工智能(AI)工具的采用率飙升,近40%的美国人现在每月都会使用它们,其中超过20%是重度用户,每月使用次数超过10次。媒体和技术爱好者们纷纷宣告“谷歌杀手”的到来。然而,数据揭示了一个更为复杂和耐人寻味的故事:尽管AI工具的使用量激增,传统搜索引擎的地位却几乎未受动摇,依然占据着95%美国用户的日常。

这种看似矛盾的现象背后,隐藏着一个深刻的转变:AI搜索并非要取代传统搜索,而是在进行一场深刻的专业化分工与能力增强。数据分析显示,AI工具的重度用户往往也是传统搜索的重度用户,他们在使用AI后,其传统搜索的频率反而有所增加。这表明,用户正在为不同类型的信息需求寻找最合适的工具。信息检索市场并非在走向整合,而是在进行精细化的分工。用户会为导航或宽泛的链接发现任务选择传统搜索引擎,而对于需要深度理解、综合信息和对话式探索的复杂问题,则转向AI搜索。

为了深入探索这一新兴领域,本文将聚焦于三种代表了AI搜索生态系统不同发展哲学的工具:Tavily(为AI智能体量身打造的开发者优先API)、SearxNG(以隐私为核心、可自托管的元搜索引擎)、Brave Search(致力于构建独立索引、面向用户的全栈式替代方案)。通过对它们的技术原理、应用场景和实践操作进行深度解析,将揭示AI如何重塑“寻找”信息的方式,并展望这一新前沿的未来图景。

第一章:超越关键词:解构AI搜索引擎

信息检索的核心革命在于从简单的字符串匹配跃迁至对上下文、意图和语义的深度理解。这一转变从根本上重塑了搜索引擎的工作方式和用户体验。

1.1 从字符串到语义:核心革命

  • 传统搜索引擎:本质是被动的。通过网络爬虫抓取网页,建立庞大的关键词索引,用户输入查询时,核心任务是在索引中匹配相应字符串,再根据PageRank等算法对结果排序。这种模式对精确的事实性查询有效,但面对模糊、复杂或多层次问题时,局限性明显。
  • AI搜索引擎:本质是主动的。采用对话式方式解读自然语言查询,试图理解用户字面意思背后的真实意图,甚至预测用户下一步需求。能处理传统搜索框中“失灵”的复杂问题(如“为我的家庭推荐一个既适合徒步又有美食的欧洲夏季旅行目的地”),这种主动性与理解能力,构成了AI搜索体验的基石。

1.2 深入底层:现代搜索的技术栈

AI搜索引擎的强大能力源于多种尖端技术构成的复杂系统,核心组件如下:

  • 自然语言处理(NLP)与大语言模型(LLM):AI搜索引擎的“大脑”。GPT(生成式预训练变换器)、BERT(来自变换器的双向编码器表示)等大语言模型,能一次性分析整个句子或短语,而非孤立处理单个词汇,可理解单词间复杂关系、上下文细微差别及查询整体语义,超越简单关键词匹配。
  • 向量嵌入(Vector Embeddings):为让机器理解概念,AI搜索引擎将文本、图片甚至其他非结构化数据转换成高维度数字数组(即“向量”)。这些向量在数学空间中的位置和方向编码了概念间关系(如“国王”向量-“男人”向量+“女人”向量,结果接近“女王”向量),使搜索引擎能进行语义搜索——寻找概念上相近的结果,而非仅文字重合。
  • 检索增强生成(RAG):区分现代AI搜索与独立聊天机器人的关键技术。独立LLM仅能依据训练数据中的知识回答,知识可能过时;而RAG架构将LLM与外部知识库(通常是实时网络索引)连接。收到查询时,系统先从外部知识库“检索”相关最新信息,再将这些信息作为上下文提供给LLM,最后由LLM“生成”流畅且基于实时事实的回答,确保结果时效性和准确性,理论上可有效减少“幻觉”(AI捏造事实)。

1.3 新的搜索体验:对比分析

下表从多维度对比两种搜索范式,清晰揭示AI搜索在查询处理、结果呈现和技术基础上的根本性变革:

特性 传统搜索 (例如:经典谷歌) AI搜索 (例如:Perplexity, Brave Summarizer)
查询处理 基于关键词匹配,对精确短语响应最佳 理解自然语言和用户意图,支持复杂的对话式查询
结果格式 按算法排序的蓝色链接列表 提供带有来源引用的、综合性的直接答案
核心技术 网页爬取、关键词索引、PageRank算法 大语言模型(LLM)、向量嵌入、检索增强生成(RAG)
个性化 有限(基于搜索历史、地理位置等) 深度情境化,能在单次对话中学习和调整
复杂性处理 难以处理模糊或多部分查询 擅长处理需要综合分析的复杂、多层次问题
主要用例 信息查找与网站导航 信息综合与问题解答

第二章:实践者指南:三款特色AI搜索工具实战

理论知识之后,进入实践环节。本章深入探讨Tavily、SearxNG和Brave Search三款工具,它们分别代表AI搜索领域从后端API到前端应用的不同形态,先通过下表进行概览:

工具 主要用例 核心特性 目标用户
Tavily AI智能体后端 专为RAG优化的搜索API AI/ML开发者
SearxNG 隐私信息聚合 可自托管的元搜索引擎 关注隐私的用户和系统管理员
Brave Search 日常网页搜索与开发 独立索引与结果定制化 普通用户与开发者

2.1 Tavily:AI智能体的研究助理(API优先)

理念与用例

Tavily并非面向普通用户的搜索引擎,而是专为AI智能体设计的后端API,核心价值是解决RAG流程中的痛点。传统搜索API(如Google或Bing)返回链接和摘要,开发者需自行编写复杂代码抓取网页、过滤无关内容、清理数据,并格式化为适合LLM使用的上下文;而Tavily通过一次API调用,完成搜索、抓取、过滤和提取全过程,直接返回干净、优化过的、可直接注入LLM提示词的上下文,极大简化AI应用开发。

分步教程(源自官方文档)
  1. 获取API密钥
    前往Tavily平台(app.tavily.com)注册或登录账户,在仪表盘中找到并复制API密钥。Tavily提供免费套餐,无需信用卡即可开始使用。

  2. 安装SDK
    根据开发语言,通过包管理器安装官方SDK:

    • Python: $ pip install tavily-python
    • JavaScript/TypeScript: $ npm install @tavily/core
  3. Python SDK使用示例
    以下代码演示如何用Python进行一次基本搜索:

    from tavily import TavilyClient
    
    # 使用你的API密钥实例化客户端
    tavily_client = TavilyClient(api_key="tvly-YOUR_API_KEY")
    
    # 调用search方法,传入查询字符串
    # include_answer=True可以在结果中包含一个简短的综合性答案
    response = tavily_client.search(query="Who is Leo Messi?", include_answer=True)
    
    # 打印结果
    # response是一个包含答案和搜索结果列表的字典
    print(response['answer'])
    for result in response['results']:
        print(f"- {result['title']}: {result['url']}")
    

    代码先导入TavilyClient类,用API密钥初始化实例,.search()方法执行搜索,返回包含综合答案和详细来源列表的JSON对象。

  4. JavaScript SDK使用示例
    适用于Node.js环境,使用方法简洁:

    const { tavily } = require("@tavily/core");
    
    // 使用你的API密钥实例化客户端
    const tvly = tavily({ apiKey: "tvly-YOUR_API_KEY" });
    
    async function main() {
      // search方法是一个异步函数
      const response = await tvly.search("Who is Leo Messi?");
      console.log(response);
    }
    
    main();
    

    代码通过require引入tavily,实例化后在异步函数中调用.search()方法,便于构建基于JavaScript的后端服务或AI代理。

  5. 直接cURL API调用
    适用于其他语言开发者或快速测试场景,可直接用cURL调用REST API:

    curl -X POST 'https://api.tavily.com/search' \
     -H 'Content-Type: application/json' \
     -d '{
        "api_key": "tvly-YOUR_API_KEY",
        "query": "Who is Leo Messi?",
        "search_depth": "advanced",
        "include_answer": true,
        "max_results": 5
     }'
    

    API为POST请求,端点为https://api.tavily.com/search,所有参数(含API密钥和查询内容)通过JSON格式请求体发送,为跨语言集成提供最大灵活性。

2.2 SearxNG:你的私有、自托管网络门户

理念与用例

SearxNG的核心价值主张是隐私和用户控制权。它是元搜索引擎,本身不建立索引,而是将用户查询匿名转发给超过251个第三方搜索服务(包括Google、Bing、DuckDuckGo等),再汇总、去重并呈现结果;整个过程不记录用户IP地址、搜索历史或任何可用于用户画像的信息,且用户可轻松自托管完全属于自己的SearxNG实例。

分步教程(Docker部署,源自官方文档)
  1. 环境准备
    确保系统已安装Docker,Linux系统需将用户添加到docker用户组以避免使用sudo:

    $ sudo usermod -aG docker $USER
    

    执行后需重新登录以使更改生效。

  2. 拉取官方镜像
    从Docker Hub拉取最新的SearxNG官方镜像:

    $ docker pull docker.io/searxng/searxng:latest
    
  3. 运行容器
    执行以下命令启动SearxNG容器:

    docker run --rm -d \
        -p 8080:8080 \
        -v ${PWD}/searxng:/etc/searxng \
        -e SEARXNG_BASE_URL=http://localhost:8080/ \
        --name searxng searxng/searxng
    

    命令中关键参数说明:

    • -d:让容器在后台(分离模式)运行;
    • -p 8080:8080:将主机8080端口映射到容器8080端口,可根据需要更改主机端口;
    • -v ${PWD}/searxng:/etc/searxng:将当前目录下searxng子目录挂载到容器内/etc/searxng(存放配置文件位置),实现配置持久化,容器重启或重建后配置不丢失;
    • -e SEARXNG_BASE_URL=...:设置实例公开URL,用于生成正确链接;
    • --name searxng:为容器指定易于记忆的名称。
  4. 基础配置 (settings.yml)
    运行docker run命令前,需在当前目录创建searxng文件夹,并在其中创建settings.yml文件(SearxNG主要配置文件),最简化配置如下:

    # searxng/settings.yml
    use_default_settings: true
    
    server:
      secret_key: "YOUR_SUPER_SECRET_KEY_HERE" # 必须修改
      limiter: true # 建议开启以防止滥用
    

    secret_key必须设置(用于加密cookie),可通过以下命令生成安全随机密钥并替换占位符:

    $ openssl rand -hex 32
    
  5. 重启与验证
    修改settings.yml后,需重启容器使配置生效:

    $ docker restart searxng
    

    可通过docker ps命令查看容器是否运行,一切正常后,在浏览器访问http://localhost:8080,即可看到私有搜索引擎界面。

2.3 Brave Search:兼顾隐私与定制化的新选择

理念与用例

Brave Search凭借两大核心差异化特性在市场中脱颖而出:一是拥有完全独立的自建搜索引擎索引,搜索结果不依赖Google或Bing,从根本上摆脱大型科技公司控制和潜在偏见;二是将隐私保护作为默认设置,不追踪用户或其搜索行为。Brave同时服务于希望获得更干净搜索体验的普通用户,以及需要通过API访问其独立索引的开发者。

面向用户的教程(源自官方文档)
  1. 使用AI摘要器 (AI Summarizer)
    这是Brave Search的核心AI功能。用户进行搜索时,对于许多信息类查询,Brave会自动在搜索结果页面最顶部生成简洁、直接的答案摘要;该摘要是基于其索引中的网页内容由AI生成,且会清晰列出信息来源的链接,确保透明度和可验证性,用户无需特殊设置,功能会自动触发。

  2. 使用Goggles定制搜索结果
    Goggles是Brave Search独特的定制化功能,允许用户应用自定义规则重新排序或过滤搜索结果,步骤如下:

    • 步骤1:在任何Brave搜索结果页面,点击顶部“Goggles”按钮,或直接访问search.brave.com/goggles
    • 步骤2:在“发现”页面,可看到社区创建的各种Goggles(如“Tech Blogs”仅显示科技博客结果、“No Pinterest”从结果中移除Pinterest,或按政治倾向过滤新闻来源的Goggles);
    • 步骤3:点击感兴趣的Goggle旁边的“Follow”按钮;
    • 步骤4:关注后,该Goggle会出现在列表中,进行任何搜索时,可随时激活,搜索结果将立即根据该Goggle的规则重排。
面向开发者的教程(源自官方文档)
  1. API简介与密钥获取
    Brave Search API为开发者提供对其独立索引的编程访问能力。使用该API需前往Brave Search API官网注册并订阅计划(即使免费计划也需订阅流程),之后将获得X-Subscription-Token作为API密钥。

  2. 执行cURL请求
    获取密钥后,可通过简单HTTP请求查询API,以下是官方cURL示例(执行网页搜索):

    curl -s --compressed "https://api.search.brave.com/res/v1/web/search?q=brave+search" \
     -H "Accept: application/json" \
     -H "Accept-Encoding: gzip" \
     -H "X-Subscription-Token: <YOUR_API_KEY>"
    

    该请求向https://api.search.brave.com/res/v1/web/search端点发送GET请求,查询词通过q参数传递,API密钥通过X-Subscription-Token请求头验证。

  3. AI增强(AI Grounding)示例
    Brave提供与OpenAI API兼容的端点,允许开发者利用Brave的实时搜索结果为LLM的回答提供事实依据(即RAG),Python代码示例如下:

    from openai import OpenAI
    
    client = OpenAI(
      api_key="<YOUR_BRAVE_SEARCH_API_KEY>",
      base_url="https://api.search.brave.com/res/v1",
    )
    
    completions = client.chat.completions.create(
      messages=[
          {"role": "user", "content": "What is Brave Search?"}
      ],
      model="brave", # 指定使用Brave的模型
      stream=False,
    )
    
    print(completions.choices[0].message.content)
    

    代码使用OpenAI官方库,但通过将base_url指向Brave的API端点,并将model指定为“brave”,实际调用Brave的AI服务;Brave会在后台执行网络搜索,并将结果用于生成准确、有来源的回答。

第三章:未来的探索:我们将从何处搜索?

随着AI技术不断渗透,信息检索版图正在重塑。未来并非由某一个“终极搜索引擎”主宰,而是更加多元化、专业化的生态系统。理解未来趋势,对用户、开发者和内容创作者都至关重要。

3.1 分化的搜索版图

未来的搜索行为将不再单一,用户会根据任务性质在不同工具间无缝切换,形成分化的搜索工具箱:

  • 传统搜索引擎(如Google、Bing):继续在导航类查询(如“Facebook登录”)和需要广泛浏览链接进行探索性研究的场景中扮演核心角色;
  • AI“答案引擎”(如Perplexity、Google AI Overviews):成为研究和信息综合的首选,用户需对复杂主题获得快速、全面理解时,这些工具的综合能力将发挥巨大价值;
  • 隐私保护工具(如Brave、DuckDuckGo、自托管的SearxNG):在处理敏感或个人查询时受到青睐,满足用户对数据控制和匿名的日益增长的需求。

这个多工具生态系统的形成,标志着搜索市场走向成熟,用户从被动接受者转变为主动选择者。

3.2 经济冲击:从SEO到AEO的演变

AI搜索对现有网络经济模式构成根本性挑战。AI摘要和直接答案的普及催生大量“零点击搜索”(用户在搜索结果页面获得答案,无需点击进入源网站),直接威胁以引流广告和内容展示为生的出版商和网站的商业模式。

为应对这一变革,“答案引擎优化(Answer Engine Optimization, AEO)”新领域兴起。AEO的目标不再仅是让网页在链接列表中排名靠前,而是让网页内容成为AI生成答案时引用的权威来源,这要求内容策略发生根本性转变:

  • 结构化内容:创建格式清晰的内容(如带明确标题的问答(FAQ)页面、数据表格、步骤指南),AI模型更易解析和提取结构化信息;
  • Schema标记:在网页中嵌入Schema.org等结构化数据标记,“告诉”搜索引擎页面内容的确切含义,提高被AI引用的概率;
  • 建立权威性:在AI模型普遍信任的平台(如维基百科、Reddit、专业论坛、行业内权威出版物)上建立影响力,AI进行RAG时会优先考虑这些来源。

3.3 信任的挑战:黑箱、幻觉与偏见

尽管AI搜索带来效率的巨大提升,但也引入新的信任危机:

  • “黑箱”问题:AI以极大自信呈现综合答案,内部推理过程对用户不透明;用户难追溯信息原始出处,也无法轻易审查逻辑链条,形成“信息黑箱”;
  • 幻觉与错误:即使采用RAG,AI模型面对信息不足或矛盾时,仍可能产生“幻觉”(捏造看似合理但不符合事实的细节);因答案呈现方式流畅且权威,用户可能在未察觉时被误导;
  • 偏见放大:AI模型的知识来源于训练数据,这些数据本身包含人类社会的各种偏见;在综合信息过程中,这些偏见可能被无意中放大或固化,形成具有误导性的权威答案,带来严峻的道德和伦理挑战。

不同工具正尝试用不同方式应对这一挑战:Brave Search强调对每一个摘要提供清晰的来源引用,SearxNG则通过让用户完全控制信息源来建立信任。

结论:人与AI探究的共生未来

AI搜索的崛起并非宣告人类好奇心的终结,而是改变了智力探究的本质。我们正从“信息狩猎采集者”(在海量链接中手动筛选信息)转变为“意义构建者与事实验证者”。在这个新时代,最高效的用户将是那些学会提出更深刻问题、批判性审视AI生成答案,并利用节省的时间解决更复杂问题的人。

这要求全新的“信息素养”。仅知道如何使用搜索框已远远不够,未来的公民需学会设计有效的提示词(prompt)、诘问AI的回答、追溯和验证信源、识别经过综合且可能带有偏见的观点。这标志着我们与数字世界互动所需认知技能的根本性转变,未来不是AI取代人类,而是人机增强、协同探究的共生未来。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐