给 AI 赋予 “身体”：魔珐星云具身智能数字人（SDK 接入 + 多场景落地）

魔珐星云是魔珐科技推出的具身智能 3D 数字人开放平台，核心使命是为 AI 赋予 “身体” 与 “表达能力”。与传统数字人平台不同，它不只是提供单一的数字人形象，而是通过全栈式技术封装，让开发者无需关注复杂的 3D 渲染、动作生成等底层逻辑，只需简单调用 SDK，就能让大模型具备语音、表情、动作兼备的多模态交互能力。星云具身驱动能力，将 AI 的表达从“文本”升级为“ 3D 多模态”。它可基于文本

2 的 n 次方_

234人浏览 · 2025-12-09 19:39:02

2 的 n 次方_ · 2025-12-09 19:39:02 发布

1. 介绍

1.1. 魔珐星云-具身智能数字人开放平台

魔珐星云是魔珐科技推出的具身智能 3D 数字人开放平台，核心使命是为 AI 赋予 “身体” 与 “表达能力”。与传统数字人平台不同，它不只是提供单一的数字人形象，而是通过全栈式技术封装，让开发者无需关注复杂的 3D 渲染、动作生成等底层逻辑，只需简单调用 SDK，就能让大模型具备语音、表情、动作兼备的多模态交互能力。

1.2. 能力介绍

星云具身驱动能力，将 AI 的表达从“文本”升级为“ 3D 多模态”。它可基于文本输入，实时生成语音、表情与动作，驱动 3D 数字人或人形机器人，实现如真人般自然的表达。相比传统仅能输出文字或语音的 AI ，星云赋予 AI 更丰富的表现力与更自然的交互体验。

1.2.1. 四种核心能力

魔珐星云的具身智能具有以下四种核心能力：

语义与情感理解：基于文本实时解析语义、情绪与动作意图，采用垂域小模型，实现高效果、低成本、低延时。

语音生成：高自然度 TTS 语音合成，小模型延迟约 100ms，大模型约 500ms，支持多语言、多音色，适配多样化场景需求。

表情与动作生成：实时生成 3D 表情，动作和手势，支持多角色、多场景和多风格表现。

AI端渲：AI 实时端侧渲染，无需传统引擎与 GPU 支持，100%兼容国产信创，超低成本，百元级芯片即可流畅运行。

1.2.2. 六大核心优势

从人物质量到部署成本，从性能效率到适配广度，星云真正支撑具身智能3D数字人的规模化落地

高质量：逼真 3D 形象，实时生成自然生动的声音、表情与动作，赋予人物真实可信的表达力。

低延时：500ms 驱动响应，交互实时流畅自然；支持随时打断，贴近真人对话体验。

高并发：支持千万级设备同时驱动，轻松应对批量化接入，保障体验稳定可靠。

低成本：百元级芯片即可运行，大幅降低部署门槛，支持大规模普及。

多终端：全面适配手机、车机、Pad、PC、电视与大屏，兼容 Android、iOS、鸿蒙等主流系统。

多角色：支持超写实、二次元、卡通、美型等各类 3D 角色风格，适配各类人设与场景需求。

1.2.3. 打破不可能三角

传统数字人开发中，高质量、低延时、低成本，这三个要素中存在一个不可能三角：

高质量 + 低延时 → 高成本

要实现电影级画质和实时交互，需大量 GPU 算力和专业团队支持，成本飙升，难以规模化部署

高并发 + 低成本 → 低质量

为支持大规模用户同时交互并控制成本，必须简化模型和渲染质量，导致数字人形象粗糙、动作僵硬

高质量 + 高并发 → 高延时

渲染高质量 3D 模型需要时间，尤其在用户量激增时，响应延迟会显著上升，破坏实时交互体验

而魔珐星云通过两大核心技术创新，成功突破这一行业难题：

文生 3D 多模态动作大模型：输入文本即可直接生成自然的表情和肢体语言，无需手动制作动画，大幅降低开发成本和时间
AI 端渲与解算技术：将部分计算从云端迁移至终端设备，即使在百元级芯片上也能流畅运行，实现 "无 GPU 渲染"，同时保持高质量和低延时

2. SDK接入开发

可以想象一下，当我们开车进行自驾游时，如果有一个能随时随地引导我们的贴身导游，会是多么方便的一件事，

当车辆接近景点时，数字人自动触发讲解：

"前方500米即将到达故宫博物院，它是中国明清两代的皇家宫殿，占地面积约72万平方米..."

用户语音提问："附近有什么好吃的北京烤鸭店？"

数字人立即响应："距离您最近的全聚德烤鸭店位于王府井大街88号，驾车约15分钟..."

接下来，我们就通过魔珐星云提供的 SDK 来开发一个车机旅游助手

2.1. 创建应用

由于使用 SDK 开发需要用到对应引用的密钥，所以我们需要先在官网上开发一个对应的应用，便于后续调用

官网上创建应用也是十分简单，首先来到创建应用的界面：https://xingyun3d.com/workspace/application-manage

然后就可以自定义形象，场景，音色

创建好之后，就能够生成对应的密钥

2.2. SDK 接入

接下来就可以通过使用魔珐星云的 SDK 进行开发了，官方也提供了对应的 SDK 说明文档：https://xingyun3d.com/developers/52-183

本次选用的是 Vue 工程来进行开发，所以需要在电脑上配置对应的 node 版本，推荐Node.js 版本 > 16

官方也提供了现成的 Demo 来进行展示：

https://rsjqcmnt5p.feishu.cn/wiki/U1TkwoTj5iP5gDkfXbwcUFsYngi

先来看一下官方 Demo 是怎么开发的：

项目结构：

src/
├── App.vue                    # 应用主组件
├── main.ts                    # 应用入口
├── style.css                  # 全局样式
├── vite-env.d.ts             # Vite环境类型声明
├── components/                # Vue组件
│   ├── AvatarRender.vue      # 虚拟人渲染组件
│   └── ConfigPanel.vue       # 配置面板组件
├── stores/                    # 状态管理
│   ├── app.ts                # 应用状态和业务逻辑
│   └── sdk-test.html         # SDK测试页面
├── services/                  # 服务层
│   ├── avatar.ts             # 虚拟人SDK服务
│   └── llm.ts                # 大语言模型服务
├── composables/               # Vue组合式函数
│   └── useAsr.ts             # 语音识别Hook
├── types/                     # TypeScript类型定义
│   └── index.ts              # 统一类型导出
├── constants/                 # 常量定义
│   └── index.ts              # 应用常量
├── utils/                     # 工具函数
│   ├── index.ts              # 通用工具函数
│   └── sdk-loader.ts         # SDK加载器
├── lib/                       # 第三方库封装
│   └── asr.ts                # 语音识别底层服务
└── assets/                    # 静态资源
    ├── siri.png              # 语音识别动画图标
    └── vue.svg               # Vue Logo

首先需要引入魔珐星云的 JS 依赖

<!DOCTYPE html>
<html lang="en">
<body>
  <div style="width: 400px;height: 600px">
    <div id="sdk"></div>
  </div>
  <script src="https://media.xingyun3d.com/xingyun3d/general/litesdk/xmovAvatar@latest.js"></script>
</body>
</html>

然后就可以创建 SDK 实例

// 创建SDK实例
const avatar = new window.XmovAvatar({
  containerId: `#${containerId}`,
  appId,
  appSecret,
  gatewayServer: url.toString(),
  // 事件回调配置
})

// 初始化SDK
await avatar.init({
  onDownloadProgress: (progress) => {
    console.log(`初始化进度: ${progress}%`)
  }
})

这里就需要用到之前创建引用的 appId 和 appSecret 了

// 配置信息
const config = {
  appId: 'your-app-id',
  appSecret: 'your-app-secret'
}

// 回调函数
const callbacks = {
  onSubtitleOn: (text: string) => {
    console.log('字幕显示:', text)
  },
  onSubtitleOff: () => {
    console.log('字幕隐藏')
  },
  onStateChange: (state: string) => {
    console.log('状态变化:', state)
  }
}

// 连接SDK
const avatar = await avatarService.connect(config, callbacks)

连接到之后，就可以调用对应的 API 进行个性化开发了，比如发送消息给数字人：

// 发送文本消息给虚拟人
await avatar.sendText('你好，我想了解一下北京的旅游景点')

如果需要语音输入的话，也可以进行语音识别：

const { start, stop, asrText } = useAsr(config, vadTime)
// 开始语音识别
start()
// 停止语音识别
stop()
// 获取识别结果
console.log('识别结果:', asrText.value)

拿到用户的信息之后，就可以调用大模型来获取回复了：

// 发送消息到大语言模型
const answer = await appStore.sendToLLM('北京有哪些必去的旅游景点？')

// 显示AI回复
console.log('AI回复:', answer)

通过调用 speak 方法来让数字人说话：

// 让虚拟人说话
avatar.instance.speak(ssml, true, false)

也可以加入字幕功能，来更方便的理解大模型的回复：

const avatar = await avatarService.connect({
  appId,
  appSecret
}, {
  onSubtitleOn: (text: string) => {
    appState.ui.subTitleText = text  // 更新字幕文本状态
  },
  onSubtitleOff: () => {
    appState.ui.subTitleText = ''  // 清空字幕文本
  },
  onStateChange: (state: string) => {
    avatarState.value = state
  }
})

当虚拟人开始说话时，SDK会触发 subtitle_on 事件, Vue的响应式系统检测到状态变化，自动更新字幕显示, 当说话结束时，SDK触发 subtitle_off 事件，清空字幕状态并隐藏UI

调用完之后就可以断开连接了:

avatarService.disconnect(avatar.instance)

2.3. 效果展示

本次开发用到的是腾讯云的语音识别功能

https://console.cloud.tencent.com/asr

可以按照这上面的步骤来接入

然后获取对应的 APPID 和密钥

然后还有用到的豆包大模型：https://console.volcengine.com/ark/region:ark+cn-beijing/apiKey?apikey=%7B%7D

在这里获取到对应的 API KEY

然后输入命令

npm install

下载完对应的依赖之后就可以启动了

npm run dev

我们来看下看下刚刚开发的游游向导：

整体体验下来还是不错的，包括数字人回答的流畅度，以及表情管理，都很接近真人，把这个嵌入车机系统，那么就能够在行驶的途中，拥有一个虚拟导游了

相比于官方的代码，除了自定义了一些样式之外，我们又添加了几种状态：

//进入待机等待状态
idle(avatar: any): void {
  if (!avatar || typeof avatar.idle !== 'function') {
    throw new Error('Avatar实例未初始化或不支持idle方法')
  }
  avatar.idle()
}
/**
   * 进入待机互动状态
   */
interactiveIdle(avatar: any): void {
  if (!avatar || typeof avatar.interactiveidle !== 'function') {
    throw new Error('Avatar实例未初始化或不支持interactiveidle方法')
  }
  avatar.interactiveidle()
}

/**
   * 进入倾听状态
   */
listen(avatar: any): void {
  if (!avatar || typeof avatar.listen !== 'function') {
    throw new Error('Avatar实例未初始化或不支持listen方法')
  }
  avatar.listen()
}

当数字人在待机时，也会触发相应的动作