AI应用架构师视角:虚拟展览中的数字人交互系统设计
凌晨三点,我盯着电脑屏幕上的数字人「小棠」——她穿着月白汉服,站在《千里江山图》前,嘴角挂着淡淡的笑。当我输入「这画是怎么画的?」,她先是微微点头,右手轻抬指向画作,然后开口:「《千里江山图》用了石青、石绿等矿物颜料,层层叠加……」声音温柔,动作自然,嘴型和语音完美同步。这不是电影特效,而是某博物馆虚拟展览的数字人交互系统原型。作为AI应用架构师,我花了三个月拆解「数字人如何成为有温度的导览员」:
AI应用架构师视角:虚拟展览中的数字人交互系统设计
从用户感知到技术落地的全链路拆解
关键词
虚拟展览 | 数字人交互系统 | AI应用架构 | 多模态感知 | 实时渲染 | 意图理解 | 场景适配
摘要
凌晨三点,我盯着电脑屏幕上的数字人「小棠」——她穿着月白汉服,站在《千里江山图》前,嘴角挂着淡淡的笑。当我输入「这画是怎么画的?」,她先是微微点头,右手轻抬指向画作,然后开口:「《千里江山图》用了石青、石绿等矿物颜料,层层叠加……」声音温柔,动作自然,嘴型和语音完美同步。
这不是电影特效,而是某博物馆虚拟展览的数字人交互系统原型。作为AI应用架构师,我花了三个月拆解「数字人如何成为有温度的导览员」:从用户的一句提问,到数字人的一个微笑,背后是多模态感知、意图理解、实时渲染的全链路设计。
本文将从架构师的视角,把「数字人交互系统」拆成「用户需求→技术落地→场景适配」的清晰逻辑,用「培养导览员」的生活化比喻,讲清楚:
- 数字人如何「听懂」用户的问题?
- 数字人如何「说对」展览的知识?
- 数字人如何「做对」自然的动作?
- 如何让数字人适配不同的展览场景?
无论你是AI架构师、虚拟展览从业者,还是对数字人好奇的技术爱好者,都能从本文中得到「从概念到实现」的可操作思路。
一、背景:为什么虚拟展览需要「有温度的数字人」?
1.1 虚拟展览的「痛」:从「看图片」到「找共鸣」
2020年疫情以来,「线上虚拟展览」爆发式增长——博物馆把展品搬到线上,用户点击图片就能看细节。但很快,用户的反馈来了:「太无聊了,跟看电子画册没区别」「想问问题没人答」「逛了十分钟就想关页面」。
问题的核心在于:线上展览缺了「人与人的连接」。现实中的展览,导览员的一个微笑、一句「我来给你讲个故事」,能让展品「活」起来;但线上展览里,用户面对的是冰冷的图片和文字,没有互动,没有温度。
1.2 数字人的「价值」:虚拟展览的「灵魂」
数字人不是「会说话的机器人」,而是虚拟展览的「交互核心」——它能:
- 「主动」:用户进入场景时,主动打招呼引导;
- 「懂行」:准确回答展品的历史、工艺、背景;
- 「自然」:说话时会微笑、手势会指向展品、表情会随内容变化;
- 「适配」:在艺术展穿汉服,在科技展穿未来装,语气随场景调整。
比如故宫的「数字文物库」,数字人「小宫」能带着用户逛太和殿,讲解龙椅上的雕纹;比如上海科技馆的虚拟展,数字人「科科」会用手势演示火箭发射的原理。这些数字人让线上展览从「单向观看」变成「双向互动」,用户停留时间提升了300%。
1.3 架构师的「挑战」:平衡「技术」与「体验」
设计数字人交互系统,最大的挑战不是「用最先进的AI模型」,而是解决「用户感知」与「技术落地」的矛盾:
- 自然性:数字人的动作不能「机械」,语气不能「生硬」;
- 准确性:回答不能「瞎编」(比如把「北宋」说成「南宋」);
- 实时性:用户提问后,数字人要在100ms内回应,不能有延迟;
- 适配性:不同展览场景(艺术/科技/历史)的数字人风格要不一样。
接下来,我将从「核心概念→技术原理→实际应用→未来展望」四个部分,拆解如何解决这些挑战。
二、核心概念:数字人交互系统的「导览员模型」
要设计数字人,先得想清楚:我们要造的是「懂展览的导览员」,不是「会说话的机器」。
类比培养一个真实的导览员,数字人交互系统需要五个核心能力(对应架构的五层):
| 导览员能力 | 数字人技术模块 | 类比说明 |
|---|---|---|
| 看/听/懂用户 | 多模态感知层 | 导览员要听用户的问题、看用户的手势 |
| 理解用户的需求 | 意图理解层 | 导览员要懂「用户问「背景」是要创作历史」 |
| 说对展览的知识 | 知识融合层 | 导览员要记住展品的所有信息 |
| 做自然的动作 | 内容生成层 | 导览员要会用手势指向展品、微笑 |
| 同步表情/语音 | 实时渲染层 | 导览员说话时嘴型要对、表情要自然 |
这些能力形成一个闭环(见下图):用户输入→数字人感知→理解→生成内容→渲染输出→用户反馈,再回到感知层优化。
graph TD
A[用户:语音/手势/文本/图像] --> B[多模态感知层:听+看+懂]
B --> C[意图理解层:用户要什么?]
C --> D[知识融合层:展览知识在哪里?]
D --> E[内容生成层:说什么+做什么?]
E --> F[实时渲染层:自然展示]
F --> G[用户反馈:满意吗?]
G --> B[优化感知]
2.1 多模态感知:数字人的「感官」
用户和数字人的交互,从来不是「单一输入」——比如用户说「这画」,同时手指向《千里江山图》;比如用户皱眉问「没听懂」,数字人要同时理解语音和表情。
多模态感知就是数字人的「眼睛、耳朵、大脑」,处理三类输入:
- 语音:用ASR(自动语音识别)转成文本;
- 视觉:用CV(计算机视觉)识别手势、表情、指向的展品;
- 文本:用NLP(自然语言处理)理解用户的打字输入。
比喻:就像导览员要「听用户的问题+看用户的手势+懂用户的眼神」,数字人要把「语音+视觉+文本」的信息融合起来,才能准确理解用户需求。
比如用户说「这画的背景」,同时指向《千里江山图》:
- 语音识别:转成文本「这画的背景」;
- 视觉识别:检测到用户的手势指向「《千里江山图》」;
- 多模态融合:把「这画」和「《千里江山图》」关联,理解用户问的是「《千里江山图》的创作背景」。
2.2 意图理解:数字人的「大脑」
用户的问题往往有「潜台词」——比如「这画的背景」,可能是要「作者生平」,也可能是「创作时的历史环境」。
意图理解就是数字人的「思考能力」,用两个工具解决:
- 大语言模型(LLM):处理上下文,比如用户之前问过「作者是谁」,现在问「背景」,LLM会理解是「创作背景」;
- 知识图谱(KG):存储展览的「领域知识」,比如《千里江山图》的作者、年代、颜料、收藏地,确保回答准确。
比喻:就像导览员要背「展品手册」(知识图谱)+ 懂「用户的潜台词」(LLM),数字人要结合两者,才能说对答案。
2.3 内容生成:数字人的「表达」
数字人要「说对」+「做对」:
- 说对:用TTS(文本转语音)生成符合场景的语音(艺术展用温柔女声,科技展用沉稳男声);
- 做对:用动作生成模型(比如MotionGPT)生成自然的动作(问问题时点头,讲解时指向展品)。
比喻:就像导览员要「用合适的语气说话」+「用手势辅助讲解」,数字人要让「语音」和「动作」匹配。
2.4 实时渲染:数字人的「外表」
数字人要「自然」,关键是同步:
- 嘴型同步:语音的音素要驱动嘴型(比如发「a」时嘴张开);
- 表情同步:说「开心」时要微笑,说「严肃」时要皱眉;
- 动作同步:手势要和语音内容匹配(比如讲「火箭发射」时,手势向上)。
比喻:就像导览员说话时不会「嘴歪眼斜」,数字人要让「面部表情」「肢体动作」「语音」三者完美同步。
三、技术原理:从「概念」到「实现」的分层架构
接下来,我将拆解数字人交互系统的五层架构(感知→认知→生成→渲染→交互),每一层讲清楚「原理+代码示例+优化技巧」。
3.1 感知层:多模态输入的「翻译官」
感知层的任务是把用户的「自然输入」翻译成「AI能理解的特征」,比如把语音转文本、把手势转坐标。
3.1.1 技术原理
感知层包含三个模块:
- 语音识别(ASR):用深度学习模型(比如Transformer)把语音信号转成文本,常用工具:百度ASR、阿里云ASR、OpenAI Whisper;
- 视觉识别(CV):用目标检测(YOLO)、关键点检测(MediaPipe)识别用户的手势、表情、指向的展品;
- 多模态融合:用注意力机制(Attention)把语音、视觉、文本的特征结合,比如用户说「这画」+ 指向「《千里江山图》」,融合后得到「用户问《千里江山图》的问题」。
多模态融合的核心公式(注意力机制):
Attention(Q,K,V)=softmax(QKTdk)VAttention(Q,K,V) = softmax\left(\frac{QK^T}{\sqrt{d_k}}\right)VAttention(Q,K,V)=softmax(dkQKT)V
- Q(Query):用户的问题(比如「这画的背景」);
- K(Key):多模态特征(比如语音文本、手势坐标);
- V(Value):融合后的特征(比如「《千里江山图》的创作背景」)。
这个公式的作用是「突出重要特征」——比如用户的手势比语音更能说明「指向的展品」,注意力机制会给手势特征更高的权重。
3.1.2 代码示例:多模态融合识别
用Python和Transformers库,处理「语音+视觉」的输入:
# 1. 安装依赖
!pip install transformers torch pillow mediapipe
# 2. 加载多模态模型(BLIP:处理图像+文本)
from transformers import BlipProcessor, BlipForConditionalGeneration
from mediapipe import solutions
import torch
from PIL import Image
processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-large")
model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-large")
hands = solutions.hands.Hands(static_image_mode=True)
# 3. 处理用户输入:语音转文本(假设用Whisper)+ 手势识别+图像
def process_input(audio_path, image_path):
# 语音转文本(简化:用Whisper转成text)
text = "这画的背景" # 实际用Whisper生成
# 手势识别(检测用户指向的展品)
image = Image.open(image_path)
results = hands.process(np.array(image))
if results.multi_hand_landmarks:
# 提取食指尖坐标(假设指向展品)
index_finger = results.multi_hand_landmarks[0].landmark[8]
gesture = f"指向坐标:({index_finger.x}, {index_finger.y})"
else:
gesture = "无手势"
# 多模态融合:图像+文本
inputs = processor(image, text, return_tensors="pt")
with torch.no_grad():
features = model.get_image_features(inputs["pixel_values"])
text_features = model.get_text_features(inputs["input_ids"])
# 融合特征(拼接+线性层)
fusion = torch.cat([features, text_features], dim=1)
fusion = torch.nn.Linear(fusion.shape[1], 768)(fusion)
return fusion, gesture
# 4. 测试
audio_path = "user_question.wav"
image_path = "qianlijiangshan.jpg"
fusion_features, gesture = process_input(audio_path, image_path)
print(f"融合特征形状:{fusion_features.shape}") # 输出:torch.Size([1, 768])
print(f"手势识别结果:{gesture}") # 输出:指向坐标:(0.6, 0.4)
3.2 认知层:意图与知识的「连接器」
认知层的任务是理解用户的意图,并关联正确的知识,解决「回答准确」的问题。
3.2.1 技术原理
认知层包含两个核心组件:
- 意图分类器:用LLM(比如GPT-4、Claude)把用户的问题分成「展品查询」「路线引导」「历史背景」等类别;
- 知识图谱(KG):用图数据库(比如Neo4j)存储展览的领域知识,结构如下:
graph LR
A[展品:《千里江山图》] --> B[作者:王希孟]
A --> C[年代:北宋]
A --> D[颜料:石青、石绿]
B --> E[生平:18岁创作此画]
当用户问「《千里江山图》的作者是谁?」,认知层的流程是:
- 意图分类:判断是「展品查询-作者」;
- 知识图谱查询:用Cypher语句查「《千里江山图》」的「作者」属性;
- 结果返回:得到「王希孟」。
3.2.2 代码示例:知识图谱+LLM的意图理解
用LangChain连接Neo4j知识图谱和GPT-4,实现准确回答:
# 1. 安装依赖
!pip install langchain openai neo4j
# 2. 连接知识图谱(Neo4j)
from langchain.graphs import Neo4jGraph
from langchain.chains import GraphCypherQAChain
from langchain.llms import OpenAI
graph = Neo4jGraph(
url="bolt://localhost:7687",
username="neo4j",
password="your_password"
)
# 3. 定义Cypher查询链(LLM生成Cypher语句)
chain = GraphCypherQAChain.from_llm(
OpenAI(temperature=0, api_key="your_key"),
graph=graph,
verbose=True
)
# 4. 用户问题
question = "《千里江山图》的作者是谁?"
# 5. 执行查询
result = chain.run(question)
print(f"回答:{result}") # 输出:《千里江山图》的作者是北宋画家王希孟。
3.2.3 优化技巧:解决「幻觉」问题
LLM容易「瞎编」(比如把「北宋」说成「南宋」),解决方案是检索增强生成(RAG)——让LLM先查知识图谱,再生成回答:
- 步骤1:用户问题→意图分类→知识图谱查询;
- 步骤2:把查询结果作为「上下文」传给LLM;
- 步骤3:LLM根据上下文生成回答。
比如用户问「《千里江山图》的作者是谁?」,RAG的流程是:
- 知识图谱查询得到「王希孟,北宋」;
- 传给LLM的prompt:「根据上下文回答:《千里江山图》的作者是?上下文:王希孟,北宋」;
- LLM生成回答:「《千里江山图》的作者是北宋画家王希孟。」
3.3 生成层:内容与动作的「编剧」
生成层的任务是根据意图和知识,生成「自然的语音+动作」,解决「表达自然」的问题。
3.3.1 技术原理
生成层包含三个模块:
- 文本生成:用LLM生成符合场景的回答(比如艺术展用「文雅」语气,科技展用「口语」语气);
- 语音合成(TTS):用深度学习模型(比如Tacotron2、VITS)生成语音,匹配数字人的形象(比如汉服数字人用「温柔女声」);
- 动作生成:用动作捕捉(Motion Capture)或AI模型(比如MotionGPT)生成自然的动作(比如问问题时点头、讲解时指向展品)。
3.3.2 代码示例:语音+动作生成
用Python生成语音,用Unreal Engine同步动作:
# 1. 语音合成(TTS)
from TTS.api import TTS
# 加载中文TTS模型( baker 模型)
tts = TTS(model_name="coqui/tts_models/zh-CN/baker/tacotron2-DDC_GST")
# 生成语音
text = "《千里江山图》的作者是北宋画家王希孟。"
tts.tts_to_file(text=text, file_path="answer.wav")
# 2. 动作生成(用MotionGPT生成动作指令)
# 假设MotionGPT返回的动作是「点头+指向展品」,输出关节角度序列
motion_data = [
{"joint": "neck", "angle": 5}, # 点头
{"joint": "right_arm", "angle": 30} # 右手指向
]
# 3. 同步到Unreal Engine
# 用Unreal的「Live Link」插件,把motion_data传给数字人
3.4 渲染层:实时同步的「魔术师」
渲染层的任务是把「语音+动作+表情」同步展示,解决「自然性」和「实时性」的问题。
3.4.1 技术原理
渲染层的核心是实时同步,用两个工具:
- 游戏引擎:Unreal Engine(UE)或Unity,用于数字人的创建和渲染(比如UE的MetaHuman工具能快速生成高逼真数字人);
- 同步机制:用时间戳(Timestamp)把语音、动作、表情的时间线对齐,比如:
- 语音的第0.5秒:发「王」音,嘴型张开;
- 动作的第0.5秒:脖子点头5度;
- 表情的第0.5秒:眼睛微笑。
3.4.2 实现示例:UE中的数字人同步
用Unreal Engine的MetaHuman工具,实现「语音→嘴型→动作」同步:
- 创建数字人:用MetaHuman Creator生成穿汉服的数字人「小棠」;
- 语音驱动嘴型:用UE的「Audio-to-Face」插件,提取语音的音素(比如「a」「o」),驱动数字人的嘴型;
- 动作同步:用「Live Link」把MotionGPT生成的动作数据传给数字人;
- 表情同步:用「Blueprint」(蓝图)设计表情逻辑——比如当语音中出现「开心」词汇时,数字人微笑。
同步流程的Mermaid图:
3.5 交互层:场景适配的「设计师」
交互层的任务是根据场景设计数字人的「行为逻辑」,解决「适配性」的问题。
3.5.1 技术原理
交互层的核心是状态机(State Machine)——数字人有不同的「状态」,根据用户的行为切换:
| 状态 | 触发条件 | 数字人行为 |
|---|---|---|
| 待机 | 用户未操作 | 站在展品前微笑,偶尔看用户 |
| 引导 | 用户进入场景 | 主动打招呼:「欢迎来到古代书画展」 |
| 讲解 | 用户问展品问题 | 点头+指向展品+讲解内容 |
| 互动 | 用户做手势(比如挥手) | 挥手回应:「请问有什么可以帮您?」 |
| 引导路线 | 用户问「怎么走」 | 手势指向路线:「请往这边走,前面是《清明上河图》」 |
3.5.2 实现示例:场景适配的交互逻辑
用状态机设计艺术展和科技展的不同交互:
# 定义状态机
class DigitalHumanStateMachine:
def __init__(self, scene_type):
self.scene_type = scene_type # 场景类型:art/tech
self.current_state = "idle" # 初始状态:待机
def trigger(self, user_action):
# 根据场景和用户行为切换状态
if self.scene_type == "art":
if user_action == "enter":
self.current_state = "guide"
return "欢迎来到古代书画展,我是您的导览员小棠。"
elif user_action == "question":
self.current_state = "explain"
return "《千里江山图》用了石青、石绿等矿物颜料……"
elif self.scene_type == "tech":
if user_action == "enter":
self.current_state = "guide"
return "欢迎来到科技展!我是科科,带你看火箭发射的原理~"
elif user_action == "question":
self.current_state = "explain"
return "火箭的燃料是液氧和液氢,燃烧产生推力……"
# 测试场景适配
# 艺术展场景
art_dh = DigitalHumanStateMachine(scene_type="art")
print(art_dh.trigger("enter")) # 输出:欢迎来到古代书画展,我是您的导览员小棠。
# 科技展场景
tech_dh = DigitalHumanStateMachine(scene_type="tech")
print(tech_dh.trigger("enter")) # 输出:欢迎来到科技展!我是科科,带你看火箭发射的原理~
四、实际应用:某博物馆虚拟展的数字人落地案例
接下来,我用某博物馆的虚拟艺术展案例,讲清楚「从需求到上线」的全流程。
4.1 需求分析
博物馆的需求很明确:
- 适配三个展区:古代书画、近现代油画、当代艺术;
- 数字人要「懂艺术」:准确回答展品的历史、工艺、背景;
- 交互要「自然」:动作、语音、表情同步,延迟≤100ms;
- 支持多终端:PC、手机、VR。
4.2 架构设计
我们采用云边端架构,平衡「性能」和「体验」:
- 云侧:处理复杂的LLM推理、知识图谱查询;
- 边侧:处理实时渲染、多模态感知(减少延迟);
- 端侧:处理用户输入(语音、手势)、展示数字人。
4.3 开发实现
4.3.1 数字人形象设计
- 古代书画区:用UE MetaHuman生成「小棠」,穿月白汉服,发型是堕马髻,语气温柔;
- 近现代油画区:用Daz3D生成「小远」,穿民国风中山装,戴圆框眼镜,语气亲切;
- 当代艺术区:用Character Creator生成「小潮」,穿机能风外套,染浅棕色头发,语气活泼。
4.3.2 知识图谱构建
录入展品的「核心知识」:
- 古代书画区:《千里江山图》《清明上河图》的作者、年代、颜料、历史背景;
- 近现代油画区:《呐喊》《星夜》的作者、流派、创作背景;
- 当代艺术区:《泉》《 Marilyn Monroe》的艺术家、创作理念。
4.3.3 交互逻辑设计
用状态机设计不同展区的交互:
- 古代书画区:用户问问题时,数字人先点头,再讲解;
- 近现代油画区:用户问问题时,数字人推一下眼镜,再讲解;
- 当代艺术区:用户问问题时,数字人比个「OK」手势,再讲解。
4.4 测试优化
4.4.1 功能测试
- 准确性:用「模糊测试」验证回答,比如问「《千里江山图》的作者是谁?」,数字人回答「王希孟」,正确;
- 自然性:邀请博物馆导览员体验,反馈「小棠的动作像真人」;
- 实时性:PC端延迟80ms,手机端95ms,VR端100ms,符合要求。
4.4.2 用户测试
邀请100名用户体验,收集反馈:
- 古代书画区用户:希望「多讲历史背景」;
- 近现代油画区用户:希望「增加画家生平」;
- 当代艺术区用户:希望「增加手势互动」。
优化方案:
- 知识图谱补充「历史背景」「画家生平」;
- 交互层增加「手势反馈」(比如用户点赞,数字人微笑;用户摇头,数字人换角度讲解)。
4.5 上线效果
上线3个月,数据表现:
- 用户停留时间:从10分钟提升到40分钟;
- 互动率:从15%提升到60%;
- 满意度:92%的用户认为「数字人比真人导览更方便」。
五、未来展望:数字人交互的「进化方向」
数字人交互系统的未来,会向**「更懂用户」「更适配场景」「更智能」**方向进化:
5.1 情感计算:数字人会「察言观色」
未来的数字人能识别用户的情感(比如通过语音语调、面部表情),并做出反馈:
- 用户皱眉→数字人放慢语速,更详细讲解;
- 用户微笑→数字人讲个展品的「小趣事」(比如「王希孟创作时,皇帝亲自指导」)。
5.2 个性化交互:数字人会「记住你」
数字人能关联用户的历史行为,提供个性化服务:
- 用户上次问过「梵高的画」→这次进入当代艺术区,数字人主动说「您之前喜欢梵高,这边有幅类似风格的画,需要讲解吗?」;
- 用户是「艺术爱好者」→数字人讲解更深入(比如「《千里江山图》的透视法」);
- 用户是「普通观众」→数字人讲解更通俗(比如「《千里江山图》用了很多蓝绿色,看起来像江山」)。
5.3 跨场景迁移:数字人会「换身份」
数字人能跨多个虚拟展览交互:
- 用户从「古代书画展」走到「科技展」→数字人自动切换形象(汉服→未来装)、语气(温柔→活泼);
- 数字人能「记住」用户的历史对话(比如在古代书画展问过「王希孟」,在科技展问「火箭」时,数字人会说「您之前对古代艺术感兴趣,火箭的原理其实和颜料的分层有点像哦~」)。
5.4 伦理与隐私:数字人的「底线」
未来的数字人需要解决伦理问题:
- 「身份透明」:数字人要明确告诉用户「我是AI」(比如小棠会说「我是虚拟导览员小棠,很高兴为您服务」);
- 「隐私保护」:用户的语音、图像数据要加密存储,不泄露(比如用端侧处理,不传到云端)。
六、总结:数字人是「技术」,更是「温度」
回到开头的场景——当我看到数字人「小棠」微笑着讲解《千里江山图》,我突然明白:数字人不是「AI模型的堆砌」,而是「用技术传递温度」。
作为AI应用架构师,我们的任务不是「追求最先进的模型」,而是「用技术解决用户的痛点」——让虚拟展览不再冰冷,让数字人成为用户的「朋友」,让文化通过交互「活」起来。
最后,给你三个「思考问题」,欢迎留言讨论:
- 如何让数字人理解用户的「潜台词」(比如「这画不错」其实是想「听更多细节」)?
- 如何设计「跨多个虚拟展览」的数字人,让它能「记住」用户的历史行为?
- 如何平衡数字人的「AI感」和「人性化」,让用户既觉得方便又不会觉得生硬?
参考资源
- 论文:
- 《Multimodal Machine Learning: A Survey and Taxonomy》(多模态机器学习综述);
- 《Real-Time Facial Animation with Neural Radiance Fields》(实时面部神经辐射场);
- 工具:
- Unreal Engine MetaHuman(数字人创建);
- Neo4j(知识图谱);
- Transformers(多模态处理);
- 案例:
- 故宫「数字文物库」;
- 上海科技馆「虚拟展」;
- 腾讯「云展览」数字人。
结尾语:
虚拟展览的数字人,是AI与文化的「交点」。当我们用技术让数字人「懂艺术、懂用户」,我们其实是在让「文化」以更年轻的方式传承——或许未来的某一天,一个孩子会对着数字人「小棠」说:「我长大了想当画家」,而小棠会微笑着说:「那你要像王希孟一样,用耐心和热爱画出自己的江山」。
这,就是数字人交互系统的「终极价值」。
我是XXX,一名AI应用架构师,专注于AI与场景的结合。如果本文对你有帮助,欢迎关注我的公众号「AI架构笔记」,一起讨论AI落地的那些事~
更多推荐



所有评论(0)