作者简介

严学峰,一个喜欢AI的项目开发工程师,热衷用智能工具重构开发流程,擅长把重复性工作交给算法,从而专注探索技术边界与产品创新的无限可能。作品「AI 无声译手」获得“CCF程序员大会码力全开:AI加速营”活动亚军。

一、创意萌发

你试过和聋哑人聊天吗?我试过——在医院的挂号窗口,一位聋哑大叔用手语比划了半天,我和工作人员面面相觑,最后他默默掏出手机,打字:“我想挂号”。

那一刻我意识到:我们生活在同一个世界,却仿佛隔着两个次元。中国有2800万听障人士,手语翻译师却只有1万名。供需比 2800 : 1。一台专业手语翻译机要6000-12000元,普通人根本看不懂手语。

于是我冒出一个想法:能不能用AI开发一个程序,让电脑或手机变成“双向翻译官”?可以实现:聋哑人打手语,通过AI程序做到:实时手语转字幕+语音输出;让普通人可以立刻理解对方手语的含义,即实现摄像头+AI转文字+AI转语音输出。

实现0新增设备,0沟通成本。为了能无障碍交流,并且还需要实现普通人讲话,通过AI程序实现语音转AI文字+AI手语在屏幕上输出,让聋哑人也可以理解普通人说的话,实现即时手语翻译语音和语音转手语的双向沟通功能,从而实现聋哑人和普通人能正常即时沟通的贴身翻译程序。

二、开发过程

作为一个项目开发工程师,有了创意,于是我立刻打开了电脑上的AI编程工具Comate,开始了这场“无声革命”。

我不是在做梦吧?AI很快搭出一个“双向翻译系统”。我打开Comate,给项目定义了一个名称:SilentSign。第一句Prompt:

“我要做一个让聋哑人和普通人无障碍沟通的小程序,你帮我从0开始写。”

没想到,Zulu没让我失望:

前端页面?写了。

手语识别模型调用?写了。

语音转文字+手语动画?也写了。

接着,我告诉Zulu:

“要做一个小程序,用电脑上摄像头识别手语,实时转语音和字幕输出,实现手语转语音的功能;同时开发一个语音转手语的功能,能把对方说的话转成字幕和手语动画输出。”

全程我没敲一行代码,很快,我把项目跑起来了。那一刻我有点恍惚:这就是AI编码时代的“工业革命”吗?我只是一个提需求的人,Zulu是那个默默写代码的“无声译手”。

01

接着,我让Comate帮我写了readme.md文件,如下:

图片

02

关于需要调用的模型,Comate很快就给出了,文心4.5模型的核心功能:

  • 语音识别 (ASR):将音频转换为文本

  • 手语动画生成:根据文本内容生成相应的手语动画

  • 多模态理解:结合文本和图像进行综合理解

  • 手势识别:识别手语图像并返回对应文本。

图片

并且还给出了:

  • 模型集成方式

  • 主要接口方法

  • 模型工作流程:接收输入数据(语音、图像、文本),根据输入类型选择合适的处理路径,调用文心4.5模型进行处理。

图片

03

我继续告诉Comate,启动前端和后端服务,准备测试。

Comate快速启动了前端和后端的服务,并整理了前端和后端开发环境启动指南:

图片

调试技巧:在调试时,Comate可以针对每个文件做精准微调,把需要调整的文件加到对话框即可:

图片

系统架构⬇️

图片

工作流程⬇️

图片

04

启动和测试

我直接点击前端链接 http://localhost:3000,很顺利,立刻就打开了前端页面:

图片

测试时,增加了test_web_speech.html测试语音的WEB Speech API测试页面,用于语音测试环节。

图片

增加了test_sign_animation.html用于临时测试手语功能。

图片

05

点击启动摄像头按钮,给出了“摄像头启动成功”的提示(我是笔记本电脑开发的,可以使用电脑上自带的摄像头功能)。

图片

测试手势识别时用了测试文件:test_gesture_recognition.html

图片

测试摄像头时,Comate专门给了个测试工具 camera_diagnostic.html:

图片

06

点开始识别,用在网上现学到的手语进行测试。使用的手语有“你好“,”谢谢“,”这个多少钱”等,准确率还需要改善。又经过多轮对话和修复一些常见BUG,已基本能实现手语转语音的功能。

图片

使用语音转手语时,点按钮“语音转手语”,可以直接切换功能。如下图:

图片

SilentSignAI 无声译手产品介绍及功能演示视频👉https://mp.weixin.qq.com/s/MenwKlsG564IDL4rdjQOpA

三、迭代计划

第一版手语转语音功能虽然能跑,但离“实用”还有距离。“语音转手语”功能还需进一步优化。后续迭代时,会重点考虑以下几个方面:

优化模型推理逻辑,前端识别延迟<200ms,引入表情符号同步机制,开心/着急都能体现,由现有的10个常用场景的离线手语包扩展到更多的手语数据集。以及手语识别精度提升,系统架构优化等。

四、一点感想

AI编码,真的能改变社会,这是我第一次感受到:代码,原来可以这么有温度。
和其他AI编程工具对比,Comate对需求和Bug的改动基本都是有效的,虽然生成速度没那么激进,但稳定性让人放心。最重要的是:Comate有VS Code插件版,切换方便,不用改太多配置,特别适合我这种“想法比代码多”的AI编程爱好者。

可以通过以下方式下载,尝试使用:

下载途径一:百度搜索“文心快码”,官网下载 Comate AI IDE

下载途径二:VS Code 或 Jetbrains IDE 搜索“文心快码”插件

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐