OpenAI Whisper-音频转文字
开会录了1小时录音,整理笔记要3小时? 播客、访谈需要字幕,手动打轴看到头大? 想把视频里的台词提取成文字,找不到好用又免费的工具?今天给大家分享一款「打工人必备神器」——OpenAI Whisper,开源免费、本地运行(不用上传云端,隐私安全),支持中文高精度转写,还能自动生成字幕,不管是会议纪要、录音整理,还是视频字幕制作,都能一键搞定!结合我自己踩过的坑(比如FFmpeg安装、重复片段、模型
开会录了1小时录音,整理笔记要3小时? 播客、访谈需要字幕,手动打轴看到头大? 想把视频里的台词提取成文字,找不到好用又免费的工具?
今天给大家分享一款「打工人必备神器」——OpenAI Whisper,开源免费、本地运行(不用上传云端,隐私安全),支持中文高精度转写,还能自动生成字幕,不管是会议纪要、录音整理,还是视频字幕制作,都能一键搞定!
结合我自己踩过的坑(比如FFmpeg安装、重复片段、模型配置),整理了这篇Mac专属保姆级教程,从安装到精通,新手跟着走,全程无卡顿、无多余操作,看完直接上手!
一、先搞懂:Whisper 到底有多香?
Whisper 是 OpenAI 开源的语音转文字(ASR)工具,对比其他转写工具,它的优势直接拉满:
- ✅ 完全免费:无订阅、无调用次数限制,本地运行不花一分钱
- ✅ 中文能打:准确率高达92%-96%,支持纯中文、中英混合转写
- ✅ 操作简单:一行命令就能转写,不用复杂配置
- ✅ 功能强大:支持音频/视频转文字、自动生成SRT/VTT字幕、语音翻译(转英文)
- ✅ 隐私安全:全程本地运行,音频不上传云端,敏感内容(会议、访谈)更放心
适用人群:打工人(会议纪要)、自媒体人(视频字幕)、学生(讲座录音)、博主(播客转写),只要有音频转文字需求,它都能胜任!
二、前置准备:必装2个依赖(Mac专属)
Whisper 运行需要两个核心依赖:FFmpeg(处理音频)+ PyTorch(模型运行),先把这两个装完,后续安装Whisper会一帆风顺,重点避坑!
1. 安装 FFmpeg(核心依赖,必装)
打开「终端」,输入以下命令:
brew install ffmpeg
💡 重点避坑(你可能遇到的情况):
如果终端提示「ffmpeg 8.1 is already installed but outdated」,说明你已经装过,只是需要升级,不用管,系统会自动升级,等待1-5分钟即可(不用外网、不用翻墙,国内网速完全够用)。
安装完成后,输入 ffmpeg -version,能看到版本号,就说明安装成功了。
2. 安装 PyTorch(模型运行依赖)
Whisper 基于PyTorch运行,终端输入以下命令,一键安装(已装的可跳过):
pip install torch torchvision torchaudio
三、安装 Whisper:两种方式,按需选择(不用重复装)
结合你之前的使用场景,分两种安装方式,重点说明:如果你用 OpenClaw,无需手动 pip 安装!
方式1:OpenClaw 自带(推荐,你已适配)
你之前用的 OpenClaw 已经内置了 Whisper 技能(标注为 openclaw-bundled),无需再用pip install openai-whisper,只需执行一次「激活命令」,就能使用:
# 激活 OpenClaw 内置的 Whisper 技能
openclaw install openai-whisper
执行后,OpenClaw 会自动管理 Whisper 的环境和依赖,不用你手动操心。
方式2:单独安装(不使用 OpenClaw,直接命令行用)
如果不想用 OpenClaw,想直接在终端使用 Whisper,输入以下命令安装:
pip install openai-whisper
安装完成后,输入 whisper --help,出现帮助信息,就说明安装成功。
四、关键配置:3步搞定,不用每次输复杂命令
安装完成后,做3个关键配置,后续使用更省心,彻底解决「每次都要输一堆参数」「警告弹窗」的问题。
1. 设置默认模型为 large(最高精度,不用每次指定)
Whisper 默认模型是 base(小模型,精度一般),你之前指定过 large 模型(最准),设置一次永久生效,再也不用每次加--model large。
✅ 方式1:Mac 全局设置(推荐,不管用不用 OpenClaw 都生效)
echo 'export WHISPER_MODEL="large"' >> ~/.zshrc
source ~/.zshrc
✅ 方式2:OpenClaw 专属设置(只在 OpenClaw 内生效)
openclaw config set skills.openai-whisper.model large
💡 提示:模型只需要下载一次(large 模型约6GB),第一次运行会自动下载,后续直接加载,速度很快。
2. 解决 FP16 警告(Mac CPU 必做)
你之前遇到的「FP16 is not supported on CPU; using FP32 instead」警告,是因为 Mac CPU 不支持半精度计算,只需在命令中加一个参数,就能彻底消除警告,不影响使用。
关键参数:--fp16 False(后续整合到命令中,不用单独输)。
3. 解决重复片段(最实用配置)
很多人用 Whisper 会遇到「同一句话重复识别」(比如你之前的「是人类最重要的」重复出现),这是模型默认参数太敏感导致的,加两个参数就能彻底解决。
关键参数:--temperature 0.0(让模型更稳定)+ --condition_on_previous_text False(禁止重复识别)。
五、核心使用:一键转写,新手也能上手
配置完成后,不管是命令行直接用,还是用 OpenClaw,都能一键转写,以下是最常用的场景,复制命令就能用。
场景1:命令行直接转写(最常用)
整合所有最优参数,中文转写最准、无警告、无重复,直接复制:
whisper 你的音频.mp3 --language Chinese --fp16 False --temperature 0.0 --condition_on_previous_text False
💡 说明:
- 音频格式支持:mp3、wav、m4a、mp4(视频也能直接转,会自动提取音轨)
- 自动输出:纯文本(txt)+ 字幕(srt),不用额外设置
- 如果只想生成字幕,加参数
--output_format srt
场景2:批量转写(多音频高效处理)
如果有多个音频需要转写,不用逐个输入命令,用以下命令批量处理(所有mp3文件一次性转写):
whisper *.mp3 --language Chinese --fp16 False --temperature 0.0 --condition_on_previous_text False
六、常见问题汇总(避坑必看)
整理了我和很多新手都会遇到的问题,不用百度,直接看这里就能解决!
- ❓ 第一次运行很慢? 答:第一次会自动下载模型(large 约3GB),后续运行秒加载,耐心等一次就好。
- ❓ 中文识别不准? 答:用 large 模型 + 指定
--language Chinese,准确率能达到95%左右,音频越清晰,准确率越高。 - ❓ 出现重复片段? 答:用我们配置的
--temperature 0.0+--condition_on_previous_text False,90%的重复都会消失。 - ❓ FFmpeg 安装报错? 答:先检查 Homebrew 是否正常,输入
brew update更新,再重新安装;如果提示依赖缺失,按照终端提示执行brew link相关命令即可。 - ❓ 模型下载失败? 答:不用外网,耐心等待,若失败,重新运行转写命令,会自动继续下载。
七、总结:新手必备快捷命令(收藏备用)
不用记复杂参数,收藏这3条命令,覆盖99%的使用场景:
- 中文最高精度转写(无警告、无重复):
whisper 音频.mp3 --language Chinese --fp16 False --temperature 0.0 --condition_on_previous_text False - OpenClaw 专属转写:
openclaw openai-whisper transcribe 音频.mp3 --language Chinese --fp16 False - 只生成SRT字幕:
whisper 音频.mp3 --language Chinese --fp16 False --output_format srt
最后说一句
Whisper 真的是打工人、自媒体人的「效率神器」,免费、好用、隐私安全,不用再为音频转文字、字幕制作浪费时间。
按照这篇教程操作,从安装到使用,全程无坑,新手也能快速上手。如果遇到其他问题,评论区留言,我会一一回复~
觉得有用,记得点赞、在看、转发给身边有需要的朋友,一起提升效率,告别无效加班!❤️
关注我,后续分享更多AI效率工具、实用技巧,帮你少走弯路~
更多推荐

所有评论(0)