比较看好这个项目,这个项目的娱乐性非常好!我是第一个star它的人!

源码:Guannan7/wbfy: 这是一个通过浅层次语言剖析深层含义的项目

社恐翻译器(黑客松创意小作品)

一个面向社恐的创意辅助工具:通过麦克风采集语音,先展示识别到的原始文本,再用大模型分析“是否为客套话”、提炼真实意图并给出建议回应。适合黑客松快速演示与扩展。目前语音识别与分析固定为中文(zh-CN)。

亮点功能

  • 🎧 麦克风状态可视化:前端实时电平条与状态文本,确认声音是否被采集
  • ⏺️ 手动开始/结束录音:点击开始录音采集音频,结束后先显示原文,再异步分析
  • 📡 连续转写模式:实时字幕(SSE)+ 逐句意图分析 + 摘要聚合
  • 🧠 大模型分析:优先 qwen3-max(OpenAI 兼容接口),失败回退 dashscope.Generation
  • 🇨🇳 中文识别:语音识别与提示词分析固定为中文 zh-CN

快速开始(macOS)

# 1) 建议安装 PortAudio(用于 PyAudio)
brew install portaudio

# 2) 创建并激活虚拟环境
python3 -m venv .venv
source .venv/bin/activate

# 3) 安装依赖
pip install -r requirements.txt

# 4) 配置环境变量(.env 文件)
# 在项目根目录新建 .env,并填入你的密钥(示例占位符):
# DASHSCOPE_API_KEY=YOUR_DASHSCOPE_API_KEY

# 5) 启动服务
python app.py

启动后访问 http://127.0.0.1:8080/(当前服务端口为 8080)。

使用说明

  • 开始/结束录音
    • 点击“开始录音”后开始采集;点击“结束录音”后停止并识别
    • 识别完成后,先在“原始文本”卡片显示文字,再进入“AI翻译”的异步分析阶段
  • 连续转写
    • 点击“开始连续转写”可获得实时字幕、意图分析与摘要
    • 点击“停止连续转写”结束该模式
  • 权限与设备
    • 首次访问页面需允许浏览器麦克风权限
    • 若在非本地/HTTPS环境下,浏览器可能限制麦克风访问,请使用 localhost 或开启 HTTPS

常见问题

  • 端口说明:服务运行在 8080,如需修改,可在 app.py 调整 port=
  • 麦克风权限:macOS 请在“系统设置 → 隐私与安全 → 麦克风”中允许终端/浏览器
  • 依赖提示:PyAudio 依赖 PortAudio;未安装可能导致录音失败
  • 安全提示:请勿将真实密钥提交到仓库,.env 仅在本地使用
  • SSE 提示:只有在点击“开始连续转写”后才会建立分析/摘要的 SSE 流;非流式模式下不会显示相关连接错误

项目结构(简要)

  • app.py:Flask Web 服务与接口(录音、结果轮询、SSE 流)
  • translator.py:语音识别与大模型分析管线(包含手动录音与连续转写)
  • templates/index.html:前端页面结构
  • static/style.css:页面样式
  • static/script.js:前端交互逻辑与麦克风电平可视化

黑客松价值

  • 创意点明确:把“客套话”解析为真实意图,帮助社恐快速理解社交语境
  • 演示友好:有可视化电平、原文→分析的明确反馈、实时转写与摘要
  • 易于扩展:可替换模型、接入 WebRTC 上传、增加多语言支持与对话上下文

许可与鸣谢

  • 依赖:Flask、SpeechRecognition、PyAudio、DashScope、OpenAI 兼容接口
  • 数据与模型服务由阿里云百炼 DashScope 提供(请遵守各平台使用条款)

总结

这个项目我比较看好,如果玩得好的话,娱乐效果炸裂!

比如在项目评选会上,每个评委点评之后,都用设个社恐翻译器翻译一遍,娱乐效果拉满!

一些播主,都可以用它或类似产品来整活!

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐