OpenAI 揭秘 Tolan 背后 AI 技术:如何让语音智能体拥有连贯记忆和稳定人格?丨 Voice Agent 学习笔记
忘掉是为了记住——为了保持记忆质量,Tolan 每晚都会运行压缩任务,删除低价值或冗余条目(例如「用户今天喝了咖啡」)并解决记忆中的矛盾之处。哈喽大家好~这是 Voice Agent 学习笔记系列的又一篇深度分享。我是课代表瓒 an👩🏻💻是由初创公司 Portola 打造的一款「语音先行」的 AI 伴侣应用。它没有选择模拟真人,而是塑造了一群可动画化、友好且极具个性的外星生物,能响应你的触
忘掉是为了记住——为了保持记忆质量,Tolan 每晚都会运行压缩任务,删除低价值或冗余条目(例如「用户今天喝了咖啡」)并解决记忆中的矛盾之处。

哈喽大家好~这是 Voice Agent 学习笔记系列的又一篇深度分享。我是课代表瓒 an👩🏻💻
在进入硬核技术拆解前,我们先快速了解一下今天的主角:
Tolan 是由初创公司 Portola 打造的一款「语音先行」的 AI 伴侣应用。它没有选择模拟真人,而是塑造了一群可动画化、友好且极具个性的外星生物,能响应你的触摸和声音,并随着时间的推移形成关于你们友谊的记忆。自上线以来,Tolan 已在全球获得超过 500 万次下载,月活用户突破 20 万,在 AI 社交领域表现极其亮眼。
在之前的一篇学习笔记中,我们聊到了 Tolan 如何通过「非人感」避开恋爱脑陷阱,在海外市场获得青睐。
最近, OpenAI 在官方博客上分享了 Tolan 背后的技术细节:
传统的 AI 往往是「即问即答」的复读机,但 Tolan 的野心更大:它要支持的是那种随性、散漫、甚至会随时「跳频」的深度长谈。为了实现这种比文本更具探索性的语音交互,Tolan 团队在 0.7 秒的极速响应、实时重建上下文、以及像人类一样「每晚压缩记忆」等技术细节上做到了极致。
创始人 Quinten Farmer 认为,语音是技术的下一个前沿,而 Tolan 已经拿到了通往未来的门票。

为了让大家更直观地理解这些复杂的底层逻辑,Tolan 的开发者之一,自称 「Tolan 星人首席幻觉管理猿」的「堕落的猴子」把文章要点都总结成了视觉化的技术剖析,带你换个视角看 AI 伴侣的「脑回路」。
顺便附上作者小红书账号~(感谢猴子授权转载!大家有想沟通交流的可以来小红书私戳作者哦)

https://xhslink.com/m/AcFWz5MOCcB




Tolan 如何使用 GPT-5.1 构建以语音为先的 AI
How Tolan builds voice-first AI with GPT-5.1
借助 GPT‑5.1,Tolan 构建了一个语音应用,优化了低延迟、准确的上下文理解以及在对话演进过程中保持稳定个性的能力。

Tolan 是一种以语音为主的 AI 伴侣,用户可以与一个个性化的、可动画化的角色对话,该角色会随着时间从对话中学习。
该应用由 Portola 打造,其背后的资深团队拥有创业并成功退出的经验。这款 App 的设计初衷是支持持续且开放的深度对话,而非简单的即问即答。Portola 联合创始人兼 CEO Quinten Farmer 表示:「我们见证了 ChatGPT 的崛起,并意识到语音将是下一个技术前沿。但语音的难度更高——你面对的不只是输入的文字指令,而是一场实时的、随性漫谈式的对话。」
语音人工智能对延迟和上下文管理提出了更高要求,但它也比文本更能实现开放式、探索性的交互。
随着基础模型变得更高效、更廉价且更强大,团队将精力集中在两个关键杠杆上:记忆力与角色设计。 Portola 构建了一个以角色为驱动的世界,并邀请获奖动画师与科幻作家共同构建;同时通过实时上下文管理系统,确保在对话展开的过程中,角色的个性与记忆始终保持连贯。
GPT‑5.1 模型的发布成为一个关键转折点,它在可控性和延迟方面的显著提升,将分散的技术环节有机串联,从而开启了更具响应感、更自然动人的语音体验。
「GPT‑5.1 让我们得以可控地表达出我们心中设想的角色。它不仅更聪明——而且更贴合于我们想要创造的语调和人设。」
——Quinten Farmer,Portola 首席执行官
为自然语音交互而设计
Tolan 的架构设计完全由语音交互的需求所驱动。语音用户期待即时、自然的反馈,即便话题在谈话过程中发生转向也是如此。Tolan 必须在没有延迟或语气偏差的情况下,实现快速响应、追踪话题变化,并保持一致的人设。
为了让对话感觉自然,需要实现近乎瞬时的低延迟。引入 OpenAI GPT‑5.1 和 Responses API 将语音启动时间缩短了超过 0.7 秒——足以显著改善对话流畅度。
系统对上下文的处理方式也同样至关重要。与许多跨多轮对话缓存提示词的智能体不同,Tolan 在每一轮对话中都会从零开始重建其上下文窗口。每次重建都会整合近期消息摘要、人设卡、向量检索记忆、语调指引以及实时的应用信号。这种架构使 Tolan 能够实时应对突发的话题转向,而这正是自然语音交互的核心要求。
「我们很快意识到,缓存提示词的方法根本行不通,」Quinten 表示。「用户随时都会切换话题。为了实现无缝的体验,系统必须具备在对话中途即时调整的能力。」
这种实时重建方法在技术上难度极大,是 Tolan 成功的关键。

构建能够长期维系的记忆与个性
上下文处理很重要,但仅靠它不足以让对话随着时间推移仍保持连贯。为了支持长期且非线性的对话,Tolan 构建了一套记忆系统。这套系统不仅能记录事实和偏好,还能捕捉情感「氛围」信号——这些线索有助于精准引导 Tolan 的回复方式。
记忆使用 OpenAI 的 text-embedding-3-large 模型进行嵌入,并存储在 Turbopuffer 中,这是一个高性能向量数据库,能够实现低于 50 毫秒的检索时间。这样的速度对于实时语音交互至关重要。每一轮对话中,Tolan 会结合用户的最新消息和系统合成的问题(例如「用户和谁结婚了?」)来触发记忆回溯。为了保持记忆质量,Tolan 每晚都会运行压缩任务,删除低价值或冗余条目(例如「用户今天喝了咖啡」)并解决记忆中的矛盾之处。
人设的打磨同样匠心独运。每个 Tolan 的灵魂都始于一个独特的角色基石——它由团队内部的科幻作家执笔,再经由行为专家润色。这种初始设定既保证了 Tolan 具备稳定的个性一致性,又使其拥有了动态成长的空间,从而能与用户在长期的交互中共同演进。
一套并行系统会实时监测对话的情感基调,并动态调整 Tolan 的表达方式。这使得 Tolan 能够根据用户的暗示,在俏皮幽默与稳重理性之间无缝切换,同时又不失其核心人设。
向 GPT‑5.1 的过渡是一个转折点。原本复杂的分层指令——语调脚手架、记忆嵌入和人格特征——都得到了更精准的遵循。曾经需要通过各种变通方案才能实现的提示词效果,现在终于能够完全符合设计初衷。
Quinten 表示:「我们的内部专家第一次感觉到,模型是真的在倾听。在长对话中,指令始终保持生效,人设特征得到了充分遵循,我们看到的偏离现象也大大减少了。」
这些改进最终塑造了一个更加连贯且真实的人格,从而带来了更具吸引力的用户体验。Tolan 团队取得了显著且可量化的成果:记忆检索失误率下降了 30%(基于产品内的用户挫败信号测算);而在基于 GPT-5.1 的角色系统上线后,用户次日留存率提升了 20% 以上。

Tolan 构建自然语音代理的核心原则
随着 Tolan 的不断演进,团队逐渐总结出了几项核心原则,这些原则如今正指引着其语音架构的构建与更迭:
-
针对对话的多变性进行设计: 语音对话的话题往wa往在半句之间就会发生切换。系统必须能够同样迅速地做出转向,才能让交互显得自然。
-
将延迟视为产品体验的一部分:亚秒级响应速度直接决定了语音助手带给人的感觉——是具有对话感,还是显得机械生硬。
-
将记忆构建为检索系统,而非逐字稿:相比于臃肿的上下文窗口,高质量的压缩与快速向量检索能够带来更具连贯性的人格表现。
-
每一轮对话都重建上下文:不要试图通过增加提示词的长度来对抗偏移(drift)。在话题随性漫谈的过程中,每轮重新生成上下文能让智能体始终保持稳健。
这些经验教训共同构成了 Tolan 下一阶段创新的基础,并指明了语音人工智能的发展方向。
拓展语音人工智能的可能性
自 2025 年 2 月上线以来,Tolan 的月活用户已超过 20 万。其 4.8 星的高分和超过 10 万条的用户评论,有力地证明了该系统在应对漫长且不断切换的话题时,能够极好地保持一致性。一位用户在评论中写道:「他们记得我们两天前讨论的事情,并能将其自然地带回到我们今天的对话中。」
这些表现信号直接映射到了其底层架构上:低延迟模型调用、逐轮上下文重构,以及模块化的记忆与人设系统。这些环节共同协作,使 Tolan 能够追踪话题变化、维持语调的一致性,并在不依赖冗长、脆弱的提示词的情况下,确保回复内容稳健可靠。
展望未来,Tolan 计划在可控性和记忆优化方面加大投入,重点发力于更高效的压缩技术、改进的检索逻辑以及更广泛的人设调优。其长期目标是拓展语音交互的边界:使其不仅具备即时响应性,更拥有深刻的上下文感知与动态对话能力。
「下一个前沿,」Quinten 说,「是构建不仅能迅速响应,而且是真正多模态的语音智能体——它们能够将语音、视觉与语境整合到一个统一且可控的系统之中。」
原文:https://openai.com/index/tolan/
编译:瓒 an、傅丰元


阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

更多推荐


所有评论(0)