鸿蒙 HarmonyOS 6 | AI Kit 集成 Core Speech Kit 语音服务

通过本文的学习，你不仅能掌握文本转语音（TTS）与语音识别（ASR）的集成技巧，还能理解如何通过底层参数微调，打造出符合复杂业务需求的交互式语音体验。

小雨青年

297人浏览 · 2026-01-29 11:31:59

小雨青年 · 2026-01-29 11:31:59 发布

文章目录

本篇技术博客将带你深入拆解 HarmonyOS Next 的 Core Speech Kit（基础语音服务）。

一、 Core Speech Kit 的能力边界与体系架构

在 HarmonyOS Next 的 AI 整体布局中，Core Speech Kit 扮演着人机交互的感知层角色。它向上为开发者提供声明式的 API，向下则深度调用系统内置的离线模型与云端算力，实现了文本与语音的高效互转。

该 Kit 的核心场景涵盖了从简单的 UI 反馈播报到复杂的长时间会议记录转换。在能力范围上，它支持最高 10000 字符的长文本合成，这足以应对绝大多数新闻资讯或电子书章节的播报需求。

而在语音识别方面，它提供了短语音（60秒内）和长语音（最高8小时）两种模式，这种灵活的跨度让它既能处理即时搜索指令，也能胜任专业的录音整理工作。

从硬件适配来看，Core Speech Kit 已经实现了对手机、平板以及 PC 等全场景设备的覆盖。对于 3 年以上经验的开发者来说，理解其离线优先的策略至关重要。这意味着即使在地铁、电梯等网络信号不佳的死角，你的应用依然可以利用本地 Kirin 芯片的算力维持核心交互不中断。

此外，从 6.0.0 版本开始支持模拟器调试，这极大提升了初期逻辑验证的开发效率。

二、文本转语音：从引擎构建到多维度配置

实现 TTS 的核心在于对 TextToSpeechEngine 的精细化管理。开发者需要理解引擎的生命周期，从创建、设置监听、执行播报到最后的释放，每一个环节都关乎内存的稳定与响应的及时性。

在创建引擎阶段，CreateEngineParams 参数的选择直接决定了播报的底色。

import { textToSpeech } from '@kit.CoreSpeechKit';

let ttsEngine: textToSpeech.TextToSpeechEngine;

// 设置初始化参数
// style 参数决定了播报的交互感，interaction-broadcast 适合广播或导航场景
let extraParam: Record<string, Object> = {
  "style": 'interaction-broadcast', 
  "locate": 'CN', 
  "name": 'CustomEngine'
};

let initParamsInfo: textToSpeech.CreateEngineParams = {
  language: 'zh-CN', // 默认语种，支持简繁体中英文
  person: 0,        // 聆小珊女声，1为劳拉女声，2为凌飞哲男声
  online: 1,        // 优先在线合成以获得更佳音质
  extraParams: extraParam
};

// 异步创建引擎，建议在组件初始化或页面挂载时完成
textToSpeech.createEngine(initParamsInfo, (err, engine) => {
  if (!err) {
    ttsEngine = engine;
    console.info('引擎创建成功，准备就绪');
  }
});

在实际业务中，由于引擎初始化涉及模型加载，建议在 aboutToAppear 中预热引擎。同时，通过 setListener 注册的回调函数中，onData 接口非常有价值。它会实时吐出生成的 PCM 音频流。如果你不希望使用系统自带的播报器，而是想将语音通过 AudioKit 进行混音处理，或者存为本地文件，这个接口就是你的核心数据源。

三、高阶实操：利用控制指令实现精准播报策略

默认的机械化阅读往往缺乏表现力。Core Speech Kit 提供了一套类似标签语言的控制指令，允许开发者直接干预合成效果。这对于处理多音字、特殊数字格式或需要节奏感的文本至关重要。

几个实战中高频使用的策略：

汉字发音纠偏：面对多音字或行业术语，可以使用 [=MN] 格式。其中 M 为拼音，N 为 1-5 的声调。例如，针对“着手”，写法为 着[=zhuo2]手。这种精准控制能有效解决语音交互中的低级错误感。
静音停顿控制：在朗读古诗或长句时，自然的呼吸感来自停顿。使用 [pN] 指令，单位为毫秒。例如 窗前明月光[p800]疑是地上霜。这比单纯依赖标点符号的自动停顿要精准得多。
数字播报逻辑：系统默认会智能判断数字是金额还是号码，但误差在所难免。你可以手动干预，[n1] 强制按号码（1、2、3）念，[n2] 强制按数值（一百二十三）念。在处理快递单号或财务报表时，这种显式配置是必不可少的。

这些配置项全部通过 SpeakParams 中的 extraParams 传递。这不仅是功能实现，更是用户体验的深度打磨，能让应用的“声线”更具品牌辨识度。

四、语音识别：实时转写与长音频流式处理

语音识别（ASR）的复杂度通常高于 TTS。在 HarmonyOS 中，ASR 引擎通过 RecognitionListener 异步反馈识别状态。识别过程分为三个关键阶段：开始识别、持续吐字、识别结束。

对于实时识别场景，开发者需要动态申请 ohos.permission.MICROPHONE 权限。在交互设计上，建议在 onResult 回调中处理中间结果。

let setListener: speechRecognizer.RecognitionListener = {
  onStart(sessionId) {
    // UI 层面可以开始显示声波动画
  },
  onResult(sessionId, result) {
    // result.result 会返回当前已识别的文本，包括中间过渡状态
    // 通过 result.isFinal 来判断当前这段话是否已经说完
    this.generatedText = result.result;
  },
  onError(sessionId, code, msg) {
    // 处理错误，如 1002200006 代表引擎忙碌
    console.error(`识别异常: ${code} - ${msg}`);
  }
};
asrEngine?.setListener(setListener);

针对长语音模式（长达 8 小时），系统内部会进行静音检测（VAD）。你可以通过配置 vadBegin 和 vadEnd 参数，来控制用户多长时间不说话后自动停止录音。这种精细化的阈值设置，能让应用在嘈杂环境（如闹市）和极端安静环境（如会议室）下都表现稳定。

五、写入音频流：处理 PCM 文件与录音数据的技巧

除了直接调起麦克风，很多业务场景需要处理存量音频，比如将一段本地录音文件转化为文字。这时候就需要用到 writeAudio 接口。

这里有三个技术细节需要重点关注：

数据块大小限制：writeAudio 并不是随心所欲写入的，目前系统仅支持长度为 640 或 1280 字节的音频片段。如果数据长度不符合要求，识别率会大幅下降甚至报错。
音频格式规范：目前 ASR 引擎对离线模型的要求比较严格，通常需要 16kHz 采样率、16bit 位深、单声道 的 PCM 原始数据。如果你的源文件是 MP3 或 AAC，需要先通过 MediaKit 进行解码转码。
流式写入节奏：在处理文件识别时，不要瞬间把整个大文件塞给引擎。建议使用定时器或循环控制写入频率，模拟真实语速（约每 40ms 写入一次数据块），这样能给引擎留出足够的处理时间，防止内部队列溢出。

// 文件转文字的核心逻辑
async function processAudioFile(path: string) {
  let file = fs.openSync(path, fs.OpenMode.READ_ONLY);
  let buf = new ArrayBuffer(1280);
  let offset = 0;
  // 循环读取文件并写入 ASR 引擎
  while (fs.readSync(file.fd, buf, { offset: offset }) === 1280) {
    asrEngine?.writeAudio(sessionId, new Uint8Array(buf));
    await sleep(40); // 模拟自然语速节奏
    offset += 1280;
  }
  asrEngine?.finish(sessionId); // 必须调用 finish 告知引擎数据结束
}

六、资源管理、并发策略与性能优化建议

语音引擎属于典型的计算密集型资源，不当的使用会导致应用内存占用过高或系统响应变慢。

并发冲突处理：同一时间系统只能运行一个语音识别实例。如果你的应用需要频繁启停识别，务必在新的 startListening 之前检查 isBusy 状态。如果返回 True，应该先引导用户等待或优雅地提示。
内存回收机制：引擎实例不再使用时，调用 shutdown 是必须的操作。简单地将对象置空并不能立刻释放底层的 Native 资源。特别是在单页应用（SPA）结构中，离开页面时释放资源是避免 OOM 的金科玉律。
数据脱敏与隐私说明：根据最新的个人数据处理说明，虽然云端不留存音频数据，但开发者仍需在隐私协议中明确告知用户麦克风的使用场景。这不仅是合规要求，也是提升应用信誉的关键。

在性能优化方面，如果应用包含大量的重复播报内容（如“请确认”、“支付成功”等），建议通过 TTS 的 onData 接口预先合成 PCM 片段并缓存到本地。下次播放时直接通过 AudioRenderer 加载，这样可以规避创建 TTS 引擎的冷启动耗时，实现真正的“零延迟”播报。