零代码实战:基于Comate与文心4.5,快速构建手语双向翻译AI应用
本文记录了一个利用百度Comate AI编程助手与文心4.5模型,零代码开发手语翻译应用“AI无声译手”的全过程。项目旨在解决2800万听障人士的沟通难题,实现摄像头实时手语转语音/字幕,以及语音转手语动画的双向翻译。文章详细分享了从创意构思、Prompt驱动开发、模型调用(手势识别、语音识别、手语动画生成)到系统搭建与测试的完整技术路径,为开发者提供了一个AI赋能社会创新的实践案例。
作者简介
严学峰,一个喜欢AI的项目开发工程师,热衷用智能工具重构开发流程,擅长把重复性工作交给算法,从而专注探索技术边界与产品创新的无限可能。作品「AI 无声译手」获得“CCF程序员大会码力全开:AI加速营”活动亚军。
一、创意萌发
你试过和聋哑人聊天吗?我试过——在医院的挂号窗口,一位聋哑大叔用手语比划了半天,我和工作人员面面相觑,最后他默默掏出手机,打字:“我想挂号”。
那一刻我意识到:我们生活在同一个世界,却仿佛隔着两个次元。中国有2800万听障人士,手语翻译师却只有1万名。供需比 2800 : 1。一台专业手语翻译机要6000-12000元,普通人根本看不懂手语。
于是我冒出一个想法:能不能用AI开发一个程序,让电脑或手机变成“双向翻译官”?可以实现:聋哑人打手语,通过AI程序做到:实时手语转字幕+语音输出;让普通人可以立刻理解对方手语的含义,即实现摄像头+AI转文字+AI转语音输出。
实现0新增设备,0沟通成本。为了能无障碍交流,并且还需要实现普通人讲话,通过AI程序实现语音转AI文字+AI手语在屏幕上输出,让聋哑人也可以理解普通人说的话,实现即时手语翻译语音和语音转手语的双向沟通功能,从而实现聋哑人和普通人能正常即时沟通的贴身翻译程序。
二、开发过程
作为一个项目开发工程师,有了创意,于是我立刻打开了电脑上的AI编程工具Comate,开始了这场“无声革命”。
我不是在做梦吧?AI很快搭出一个“双向翻译系统”。我打开Comate,给项目定义了一个名称:SilentSign。第一句Prompt:
“我要做一个让聋哑人和普通人无障碍沟通的小程序,你帮我从0开始写。”
没想到,Zulu没让我失望:
前端页面?写了。
手语识别模型调用?写了。
语音转文字+手语动画?也写了。
接着,我告诉Zulu:
“要做一个小程序,用电脑上摄像头识别手语,实时转语音和字幕输出,实现手语转语音的功能;同时开发一个语音转手语的功能,能把对方说的话转成字幕和手语动画输出。”
全程我没敲一行代码,很快,我把项目跑起来了。那一刻我有点恍惚:这就是AI编码时代的“工业革命”吗?我只是一个提需求的人,Zulu是那个默默写代码的“无声译手”。
01
接着,我让Comate帮我写了readme.md文件,如下:

02
关于需要调用的模型,Comate很快就给出了,文心4.5模型的核心功能:
-
语音识别 (ASR):将音频转换为文本
-
手语动画生成:根据文本内容生成相应的手语动画
-
多模态理解:结合文本和图像进行综合理解
-
手势识别:识别手语图像并返回对应文本。

并且还给出了:
-
模型集成方式
-
主要接口方法
-
模型工作流程:接收输入数据(语音、图像、文本),根据输入类型选择合适的处理路径,调用文心4.5模型进行处理。

03
我继续告诉Comate,启动前端和后端服务,准备测试。
Comate快速启动了前端和后端的服务,并整理了前端和后端开发环境启动指南:

调试技巧:在调试时,Comate可以针对每个文件做精准微调,把需要调整的文件加到对话框即可:

系统架构⬇️

工作流程⬇️

04
启动和测试
我直接点击前端链接 http://localhost:3000,很顺利,立刻就打开了前端页面:

测试时,增加了test_web_speech.html测试语音的WEB Speech API测试页面,用于语音测试环节。

增加了test_sign_animation.html用于临时测试手语功能。

05
点击启动摄像头按钮,给出了“摄像头启动成功”的提示(我是笔记本电脑开发的,可以使用电脑上自带的摄像头功能)。

测试手势识别时用了测试文件:test_gesture_recognition.html

测试摄像头时,Comate专门给了个测试工具 camera_diagnostic.html:

06
点开始识别,用在网上现学到的手语进行测试。使用的手语有“你好“,”谢谢“,”这个多少钱”等,准确率还需要改善。又经过多轮对话和修复一些常见BUG,已基本能实现手语转语音的功能。

使用语音转手语时,点按钮“语音转手语”,可以直接切换功能。如下图:

SilentSignAI 无声译手产品介绍及功能演示视频👉https://mp.weixin.qq.com/s/MenwKlsG564IDL4rdjQOpA
三、迭代计划
第一版手语转语音功能虽然能跑,但离“实用”还有距离。“语音转手语”功能还需进一步优化。后续迭代时,会重点考虑以下几个方面:
优化模型推理逻辑,前端识别延迟<200ms,引入表情符号同步机制,开心/着急都能体现,由现有的10个常用场景的离线手语包扩展到更多的手语数据集。以及手语识别精度提升,系统架构优化等。
四、一点感想
AI编码,真的能改变社会,这是我第一次感受到:代码,原来可以这么有温度。
和其他AI编程工具对比,Comate对需求和Bug的改动基本都是有效的,虽然生成速度没那么激进,但稳定性让人放心。最重要的是:Comate有VS Code插件版,切换方便,不用改太多配置,特别适合我这种“想法比代码多”的AI编程爱好者。
可以通过以下方式下载,尝试使用:
下载途径一:百度搜索“文心快码”,官网下载 Comate AI IDE
下载途径二:VS Code 或 Jetbrains IDE 搜索“文心快码”插件
更多推荐


所有评论(0)