社恐翻译器(黑客松创意小作品),CCF程序员大会码力全开:AI加速营决赛入围名单之一
社恐翻译器是一个创意工具,通过语音识别和大模型分析帮助社交恐惧者理解对话中的客套话,提炼真实意图并给出回应建议。项目支持麦克风录音、实时转写和AI分析功能,采用中文识别和Qwen3-max模型。亮点包括可视化录音状态、手动/连续录音模式以及异步分析。开发者提供了macOS环境下的快速启动指南,强调密钥安全和权限设置。该项目具有明确的社交场景应用价值,适合黑客松演示和扩展,可替换模型或增加多语言支持
·
比较看好这个项目,这个项目的娱乐性非常好!我是第一个star它的人!
源码:Guannan7/wbfy: 这是一个通过浅层次语言剖析深层含义的项目
社恐翻译器(黑客松创意小作品)
一个面向社恐的创意辅助工具:通过麦克风采集语音,先展示识别到的原始文本,再用大模型分析“是否为客套话”、提炼真实意图并给出建议回应。适合黑客松快速演示与扩展。目前语音识别与分析固定为中文(zh-CN)。
亮点功能
- 🎧 麦克风状态可视化:前端实时电平条与状态文本,确认声音是否被采集
- ⏺️ 手动开始/结束录音:点击开始录音采集音频,结束后先显示原文,再异步分析
- 📡 连续转写模式:实时字幕(SSE)+ 逐句意图分析 + 摘要聚合
- 🧠 大模型分析:优先
qwen3-max(OpenAI 兼容接口),失败回退dashscope.Generation - 🇨🇳 中文识别:语音识别与提示词分析固定为中文
zh-CN
快速开始(macOS)
# 1) 建议安装 PortAudio(用于 PyAudio) brew install portaudio # 2) 创建并激活虚拟环境 python3 -m venv .venv source .venv/bin/activate # 3) 安装依赖 pip install -r requirements.txt # 4) 配置环境变量(.env 文件) # 在项目根目录新建 .env,并填入你的密钥(示例占位符): # DASHSCOPE_API_KEY=YOUR_DASHSCOPE_API_KEY # 5) 启动服务 python app.py
启动后访问 http://127.0.0.1:8080/(当前服务端口为 8080)。
使用说明
- 开始/结束录音
- 点击“开始录音”后开始采集;点击“结束录音”后停止并识别
- 识别完成后,先在“原始文本”卡片显示文字,再进入“AI翻译”的异步分析阶段
- 连续转写
- 点击“开始连续转写”可获得实时字幕、意图分析与摘要
- 点击“停止连续转写”结束该模式
- 权限与设备
- 首次访问页面需允许浏览器麦克风权限
- 若在非本地/HTTPS环境下,浏览器可能限制麦克风访问,请使用
localhost或开启 HTTPS
常见问题
- 端口说明:服务运行在
8080,如需修改,可在app.py调整port= - 麦克风权限:macOS 请在“系统设置 → 隐私与安全 → 麦克风”中允许终端/浏览器
- 依赖提示:PyAudio 依赖 PortAudio;未安装可能导致录音失败
- 安全提示:请勿将真实密钥提交到仓库,
.env仅在本地使用 - SSE 提示:只有在点击“开始连续转写”后才会建立分析/摘要的 SSE 流;非流式模式下不会显示相关连接错误
项目结构(简要)
app.py:Flask Web 服务与接口(录音、结果轮询、SSE 流)translator.py:语音识别与大模型分析管线(包含手动录音与连续转写)templates/index.html:前端页面结构static/style.css:页面样式static/script.js:前端交互逻辑与麦克风电平可视化
黑客松价值
- 创意点明确:把“客套话”解析为真实意图,帮助社恐快速理解社交语境
- 演示友好:有可视化电平、原文→分析的明确反馈、实时转写与摘要
- 易于扩展:可替换模型、接入 WebRTC 上传、增加多语言支持与对话上下文
许可与鸣谢
- 依赖:Flask、SpeechRecognition、PyAudio、DashScope、OpenAI 兼容接口
- 数据与模型服务由阿里云百炼 DashScope 提供(请遵守各平台使用条款)
总结
这个项目我比较看好,如果玩得好的话,娱乐效果炸裂!
比如在项目评选会上,每个评委点评之后,都用设个社恐翻译器翻译一遍,娱乐效果拉满!
一些播主,都可以用它或类似产品来整活!
更多推荐



所有评论(0)