一、背景

在智能客服、内容创作、教育培训、媒体播报、政务解说等行业中,语音合成(TTS) 已成为核心能力。然而,不同厂商 TTS 服务在音色自然度、延迟、长文本稳定性、发音风格等方面差异明显,实际业务中常见问题:

  • 🎧 长文本合成不稳定:容易断句或超时

  • 🗣 音色效果不一致:不同场景下表现差异大

  • ⚙️ 接入成本高:需要同时管理多家 TTS 服务接口

为满足企业对 高质量、多样化和高可用语音合成 的需求,我们打造了 语音合成融合服务,集成阿里云、字节跳动(精品长文本 + 大模型异步TTS)以及自研 TTS 引擎,实现智能调度、稳定输出。


二、产品概述

1️⃣ 多引擎集成

  • 阿里云语音合成:高自然度 TTS,多音色支持,自定义发音人

  • 字节跳动语音合成:精品长文本 + 大模型异步,支持超长文本、情感表达

  • 自研引擎:低延时基础语音生成,并发能力可扩展

2️⃣ 灵活接入与统一接口

  • 云服务部署,高可用弹性扩容

  • 统一调用入口,屏蔽各厂商协议差异

  • 支持输入文本、选择音色、返回音频


三、技术亮点

  • 多引擎融合算法:同一文本可并行提交至多个 TTS 引擎,自动选择最佳结果

  • 高并发低时延架构:微服务架构 + 分布式队列

  • 长文本优化:逗号断句优化,大模型接口支持情感表达和上下文理解


四、典型应用场景

  • 智能客服语音播报

  • 有声书 / 知识付费内容制作

  • 数字人、虚拟主播配音

  • 政务解说与公共服务


五、接口设计

1️⃣ 创建异步任务接口(/tts/async)

请求方式

POST /tts/async
Content-Type: application/json
Authorization: Bearer <token>

请求参数(JSON Body)

参数

类型

必填

默认值

说明

text

string

-

待合成文本

voice

string

系统默认

发音人

format

string

-

输出音频格式,如 wav、mp3

sample_rate

int

-

音频采样率,如 16000、24000

volume

int

100

音量 0~100

speech_rate

int

0

语速,-100~100

pitch_rate

int

0

音调,-100~100

enable_subtitle

bool

false

是否返回分句字幕

enable_notify

bool

false

是否异步回调

notify_url

string

-

回调地址,enable_notify=true 时必填

comma_flag

bool

false

逗号断句优化

model_flag

bool

false

字节跳动大模型接口选择

请求示例

curl -X POST 'http://localhost:8080/tts/async' \
--header 'Content-Type: application/json' \
--header "Authorization: Bearer xxxx-1" \
--data '{
    "text": "今天天气好晴朗",
    "voice": "微软-磁性男声",
    "format": "wav",
    "sample_rate": 16000,
    "enable_subtitle": true,
    "enable_notify": false,
    "speech_rate": 0
}'

返回示例

{
  "data": {
    "task_id": "b686a398866742498d4ea835143f5174"
  },
  "error_code": 20000000,
  "error_message": "SUCCESS",
  "request_id": "ce55760d-43c7-4133-9478-ca6d744fd517",
  "status": 200
}

2️⃣ 查询任务接口(/tts/query)

请求方式

GET /tts/query?request_id=<request_id>&task_id=<task_id>
Authorization: Bearer <token>

请求参数(Query)

参数

类型

必填

说明

request_id

string

创建任务时返回的请求 ID

task_id

string

异步任务 ID

请求示例

curl --header "Authorization: Bearer xxx-1" \
-X GET 'http://localhost:8080/tts/query?request_id=ce55760d-43c7-4133-9478-ca6d744fd517&task_id=b686a398866742498d4ea835143f5174'

返回示例

{
  "data": {
    "audio_address": "http://shanghai4.xstore.qihoo.net/mm-tts-audios/tts/bc61bda3-e513-4300-ba99-b0ba93f1a883.wav",
    "sentences": [
      {
        "id": 0,
        "text": "今天天气好晴朗",
        "begin_time": 170,
        "end_time": 1795
      }
    ]
  },
  "error_code": 20000000,
  "error_message": "SUCCESS",
  "pod_ip": "11.70.176.21",
  "request_id": "tmp",
  "status": 200
}

返回字段说明

字段

类型

说明

audio_address

string

合成音频下载地址

sentences

array

分句信息

sentences[].id

int

分句编号

sentences[].text

string

分句文本

sentences[].begin_time

int

分句开始时间(毫秒)

sentences[].end_time

int

分句结束时间(毫秒)

error_code

int

返回码,20000000 表示成功

error_message

string

返回信息

request_id

string

本次请求 ID

pod_ip

string

执行任务的服务器 IP

status

int

HTTP 状态码


六、接口调用说明

  • Authorization Header 用于区分渠道:

    • -1 自建引擎

    • -2 阿里云

    • -5 字节跳动(model_flag 控制大模型/精品长文本)

  • 异步任务 task_id 用于轮询查询结果,完成后可下载音频

  • 分句字幕信息可用于字幕显示或视频对齐


七、API Key 获取说明

语音合成融合服务调用需要使用 API Key / Token 进行身份验证。

获取步骤

  1. 智汇云官网找到API市场服务

  2. 在API市场里找到音频服务

  3. 找到语音合成,在语音合成里创建应用

  4. 获取API KEY

  5. 在接口调用时添加 Authorization Header

Authorization: Bearer <Your-API-Key>

示例

curl -X POST 'http://localhost:8080/tts/async' \
--header 'Content-Type: application/json' \
--header "Authorization: Bearer <Your-API-Key>" \
--data '{
    "text": "今天天气好晴朗",
    "voice": "微软-磁性男声",
    "format": "wav",
    "sample_rate": 16000,
    "enable_subtitle": true,
    "enable_notify": false,
    "speech_rate": 0
}'

八、合作与接入

我们的语音融合服务已完成核心功能建设,现面向各行业开放试点接入:

  • 开放合作探索 欢迎合作伙伴通过标准 API 接入,共同完善服务能力,拓展语音合成在更多场景的应用价值。

如需获取接口文档或申请试用,请联系我们——4000052360

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐