智汇云 TTS 融合引擎:一站式多源语音合成,让声音更智能
集成阿里云、字节跳动(精品长文本 + 大模型异步TTS)以及自研 TTS 引擎,实现智能调度、稳定输出。欢迎合作伙伴通过标准 API 接入,共同完善服务能力,拓展语音合成在更多场景的应用价值。在智能客服、内容创作、教育培训、媒体播报、政务解说等行业中,:同一文本可并行提交至多个 TTS 引擎,自动选择最佳结果。:精品长文本 + 大模型异步,支持超长文本、情感表达。:逗号断句优化,大模型接口支持情感
一、背景
在智能客服、内容创作、教育培训、媒体播报、政务解说等行业中,语音合成(TTS) 已成为核心能力。然而,不同厂商 TTS 服务在音色自然度、延迟、长文本稳定性、发音风格等方面差异明显,实际业务中常见问题:
-
🎧 长文本合成不稳定:容易断句或超时
-
🗣 音色效果不一致:不同场景下表现差异大
-
⚙️ 接入成本高:需要同时管理多家 TTS 服务接口
为满足企业对 高质量、多样化和高可用语音合成 的需求,我们打造了 语音合成融合服务,集成阿里云、字节跳动(精品长文本 + 大模型异步TTS)以及自研 TTS 引擎,实现智能调度、稳定输出。
二、产品概述
1️⃣ 多引擎集成
-
阿里云语音合成:高自然度 TTS,多音色支持,自定义发音人
-
字节跳动语音合成:精品长文本 + 大模型异步,支持超长文本、情感表达
-
自研引擎:低延时基础语音生成,并发能力可扩展
2️⃣ 灵活接入与统一接口
-
云服务部署,高可用弹性扩容
-
统一调用入口,屏蔽各厂商协议差异
-
支持输入文本、选择音色、返回音频
三、技术亮点
-
多引擎融合算法:同一文本可并行提交至多个 TTS 引擎,自动选择最佳结果
-
高并发低时延架构:微服务架构 + 分布式队列
-
长文本优化:逗号断句优化,大模型接口支持情感表达和上下文理解
四、典型应用场景
-
智能客服语音播报
-
有声书 / 知识付费内容制作
-
数字人、虚拟主播配音
-
政务解说与公共服务
五、接口设计
1️⃣ 创建异步任务接口(/tts/async)
请求方式:
POST /tts/async
Content-Type: application/json
Authorization: Bearer <token>
请求参数(JSON Body):
|
参数 |
类型 |
必填 |
默认值 |
说明 |
|---|---|---|---|---|
|
|
string |
✓ |
- |
待合成文本 |
|
|
string |
✗ |
系统默认 |
发音人 |
|
|
string |
✓ |
- |
输出音频格式,如 wav、mp3 |
|
|
int |
✓ |
- |
音频采样率,如 16000、24000 |
|
|
int |
✗ |
100 |
音量 0~100 |
|
|
int |
✗ |
0 |
语速,-100~100 |
|
|
int |
✗ |
0 |
音调,-100~100 |
|
|
bool |
✗ |
false |
是否返回分句字幕 |
|
|
bool |
✗ |
false |
是否异步回调 |
|
|
string |
✗ |
- |
回调地址, |
|
|
bool |
✗ |
false |
逗号断句优化 |
|
|
bool |
✗ |
false |
字节跳动大模型接口选择 |
请求示例:
curl -X POST 'http://localhost:8080/tts/async' \
--header 'Content-Type: application/json' \
--header "Authorization: Bearer xxxx-1" \
--data '{
"text": "今天天气好晴朗",
"voice": "微软-磁性男声",
"format": "wav",
"sample_rate": 16000,
"enable_subtitle": true,
"enable_notify": false,
"speech_rate": 0
}'
返回示例:
{
"data": {
"task_id": "b686a398866742498d4ea835143f5174"
},
"error_code": 20000000,
"error_message": "SUCCESS",
"request_id": "ce55760d-43c7-4133-9478-ca6d744fd517",
"status": 200
}
2️⃣ 查询任务接口(/tts/query)
请求方式:
GET /tts/query?request_id=<request_id>&task_id=<task_id>
Authorization: Bearer <token>
请求参数(Query):
|
参数 |
类型 |
必填 |
说明 |
|---|---|---|---|
|
|
string |
✓ |
创建任务时返回的请求 ID |
|
|
string |
✓ |
异步任务 ID |
请求示例:
curl --header "Authorization: Bearer xxx-1" \
-X GET 'http://localhost:8080/tts/query?request_id=ce55760d-43c7-4133-9478-ca6d744fd517&task_id=b686a398866742498d4ea835143f5174'
返回示例:
{
"data": {
"audio_address": "http://shanghai4.xstore.qihoo.net/mm-tts-audios/tts/bc61bda3-e513-4300-ba99-b0ba93f1a883.wav",
"sentences": [
{
"id": 0,
"text": "今天天气好晴朗",
"begin_time": 170,
"end_time": 1795
}
]
},
"error_code": 20000000,
"error_message": "SUCCESS",
"pod_ip": "11.70.176.21",
"request_id": "tmp",
"status": 200
}
返回字段说明:
|
字段 |
类型 |
说明 |
|---|---|---|
|
|
string |
合成音频下载地址 |
|
|
array |
分句信息 |
|
|
int |
分句编号 |
|
|
string |
分句文本 |
|
|
int |
分句开始时间(毫秒) |
|
|
int |
分句结束时间(毫秒) |
|
|
int |
返回码, |
|
|
string |
返回信息 |
|
|
string |
本次请求 ID |
|
|
string |
执行任务的服务器 IP |
|
|
int |
HTTP 状态码 |
六、接口调用说明
-
Authorization Header 用于区分渠道:
-
-1自建引擎 -
-2阿里云 -
-5字节跳动(model_flag控制大模型/精品长文本)
-
-
异步任务
task_id用于轮询查询结果,完成后可下载音频 -
分句字幕信息可用于字幕显示或视频对齐
七、API Key 获取说明
语音合成融合服务调用需要使用 API Key / Token 进行身份验证。
获取步骤
-
在智汇云官网找到API市场服务

-
在API市场里找到音频服务

-
找到语音合成,在语音合成里创建应用


-
获取API KEY

-
在接口调用时添加 Authorization Header:
Authorization: Bearer <Your-API-Key>
示例
curl -X POST 'http://localhost:8080/tts/async' \
--header 'Content-Type: application/json' \
--header "Authorization: Bearer <Your-API-Key>" \
--data '{
"text": "今天天气好晴朗",
"voice": "微软-磁性男声",
"format": "wav",
"sample_rate": 16000,
"enable_subtitle": true,
"enable_notify": false,
"speech_rate": 0
}'
八、合作与接入
我们的语音融合服务已完成核心功能建设,现面向各行业开放试点接入:
-
开放合作探索 欢迎合作伙伴通过标准 API 接入,共同完善服务能力,拓展语音合成在更多场景的应用价值。
如需获取接口文档或申请试用,请联系我们——4000052360
更多推荐


所有评论(0)