开会录了1小时录音,整理笔记要3小时? 播客、访谈需要字幕,手动打轴看到头大? 想把视频里的台词提取成文字,找不到好用又免费的工具?

今天给大家分享一款「打工人必备神器」——OpenAI Whisper,开源免费、本地运行(不用上传云端,隐私安全),支持中文高精度转写,还能自动生成字幕,不管是会议纪要、录音整理,还是视频字幕制作,都能一键搞定!

结合我自己踩过的坑(比如FFmpeg安装、重复片段、模型配置),整理了这篇Mac专属保姆级教程,从安装到精通,新手跟着走,全程无卡顿、无多余操作,看完直接上手!

一、先搞懂:Whisper 到底有多香?

Whisper 是 OpenAI 开源的语音转文字(ASR)工具,对比其他转写工具,它的优势直接拉满:

  • ✅ 完全免费:无订阅、无调用次数限制,本地运行不花一分钱
  • ✅ 中文能打:准确率高达92%-96%,支持纯中文、中英混合转写
  • ✅ 操作简单:一行命令就能转写,不用复杂配置
  • ✅ 功能强大:支持音频/视频转文字、自动生成SRT/VTT字幕、语音翻译(转英文)
  • ✅ 隐私安全:全程本地运行,音频不上传云端,敏感内容(会议、访谈)更放心

适用人群:打工人(会议纪要)、自媒体人(视频字幕)、学生(讲座录音)、博主(播客转写),只要有音频转文字需求,它都能胜任!

二、前置准备:必装2个依赖(Mac专属)

Whisper 运行需要两个核心依赖:FFmpeg(处理音频)+ PyTorch(模型运行),先把这两个装完,后续安装Whisper会一帆风顺,重点避坑!

1. 安装 FFmpeg(核心依赖,必装)

打开「终端」,输入以下命令:

brew install ffmpeg

💡 重点避坑(你可能遇到的情况):

如果终端提示「ffmpeg 8.1 is already installed but outdated」,说明你已经装过,只是需要升级,不用管,系统会自动升级,等待1-5分钟即可(不用外网、不用翻墙,国内网速完全够用)。

安装完成后,输入 ffmpeg -version,能看到版本号,就说明安装成功了。

2. 安装 PyTorch(模型运行依赖)

Whisper 基于PyTorch运行,终端输入以下命令,一键安装(已装的可跳过):

pip install torch torchvision torchaudio

三、安装 Whisper:两种方式,按需选择(不用重复装)

结合你之前的使用场景,分两种安装方式,重点说明:如果你用 OpenClaw,无需手动 pip 安装!

方式1:OpenClaw 自带(推荐,你已适配)

你之前用的 OpenClaw 已经内置了 Whisper 技能(标注为 openclaw-bundled),无需再用pip install openai-whisper,只需执行一次「激活命令」,就能使用:

# 激活 OpenClaw 内置的 Whisper 技能
openclaw install openai-whisper

执行后,OpenClaw 会自动管理 Whisper 的环境和依赖,不用你手动操心。

方式2:单独安装(不使用 OpenClaw,直接命令行用)

如果不想用 OpenClaw,想直接在终端使用 Whisper,输入以下命令安装:

pip install openai-whisper

安装完成后,输入 whisper --help,出现帮助信息,就说明安装成功。

四、关键配置:3步搞定,不用每次输复杂命令

安装完成后,做3个关键配置,后续使用更省心,彻底解决「每次都要输一堆参数」「警告弹窗」的问题。

1. 设置默认模型为 large(最高精度,不用每次指定)

Whisper 默认模型是 base(小模型,精度一般),你之前指定过 large 模型(最准),设置一次永久生效,再也不用每次加--model large

✅ 方式1:Mac 全局设置(推荐,不管用不用 OpenClaw 都生效)

echo 'export WHISPER_MODEL="large"' >> ~/.zshrc
source ~/.zshrc

✅ 方式2:OpenClaw 专属设置(只在 OpenClaw 内生效)

openclaw config set skills.openai-whisper.model large

💡 提示:模型只需要下载一次(large 模型约6GB),第一次运行会自动下载,后续直接加载,速度很快。

2. 解决 FP16 警告(Mac CPU 必做)

你之前遇到的「FP16 is not supported on CPU; using FP32 instead」警告,是因为 Mac CPU 不支持半精度计算,只需在命令中加一个参数,就能彻底消除警告,不影响使用。

关键参数:--fp16 False(后续整合到命令中,不用单独输)。

3. 解决重复片段(最实用配置)

很多人用 Whisper 会遇到「同一句话重复识别」(比如你之前的「是人类最重要的」重复出现),这是模型默认参数太敏感导致的,加两个参数就能彻底解决。

关键参数:--temperature 0.0(让模型更稳定)+ --condition_on_previous_text False(禁止重复识别)。

五、核心使用:一键转写,新手也能上手

配置完成后,不管是命令行直接用,还是用 OpenClaw,都能一键转写,以下是最常用的场景,复制命令就能用。

场景1:命令行直接转写(最常用)

整合所有最优参数,中文转写最准、无警告、无重复,直接复制:

whisper 你的音频.mp3 --language Chinese --fp16 False --temperature 0.0 --condition_on_previous_text False

💡 说明:

  • 音频格式支持:mp3、wav、m4a、mp4(视频也能直接转,会自动提取音轨)
  • 自动输出:纯文本(txt)+ 字幕(srt),不用额外设置
  • 如果只想生成字幕,加参数 --output_format srt

场景2:批量转写(多音频高效处理)

如果有多个音频需要转写,不用逐个输入命令,用以下命令批量处理(所有mp3文件一次性转写):

whisper *.mp3 --language Chinese --fp16 False --temperature 0.0 --condition_on_previous_text False

六、常见问题汇总(避坑必看)

整理了我和很多新手都会遇到的问题,不用百度,直接看这里就能解决!

  • ❓ 第一次运行很慢? 答:第一次会自动下载模型(large 约3GB),后续运行秒加载,耐心等一次就好。
  • ❓ 中文识别不准? 答:用 large 模型 + 指定 --language Chinese,准确率能达到95%左右,音频越清晰,准确率越高。
  • ❓ 出现重复片段? 答:用我们配置的 --temperature 0.0 + --condition_on_previous_text False,90%的重复都会消失。
  • ❓ FFmpeg 安装报错? 答:先检查 Homebrew 是否正常,输入 brew update 更新,再重新安装;如果提示依赖缺失,按照终端提示执行 brew link 相关命令即可。
  • ❓ 模型下载失败? 答:不用外网,耐心等待,若失败,重新运行转写命令,会自动继续下载。

七、总结:新手必备快捷命令(收藏备用)

不用记复杂参数,收藏这3条命令,覆盖99%的使用场景:

  1. 中文最高精度转写(无警告、无重复): whisper 音频.mp3 --language Chinese --fp16 False --temperature 0.0 --condition_on_previous_text False
  2. OpenClaw 专属转写: openclaw openai-whisper transcribe 音频.mp3 --language Chinese --fp16 False
  3. 只生成SRT字幕: whisper 音频.mp3 --language Chinese --fp16 False --output_format srt

最后说一句

Whisper 真的是打工人、自媒体人的「效率神器」,免费、好用、隐私安全,不用再为音频转文字、字幕制作浪费时间。

按照这篇教程操作,从安装到使用,全程无坑,新手也能快速上手。如果遇到其他问题,评论区留言,我会一一回复~

觉得有用,记得点赞、在看、转发给身边有需要的朋友,一起提升效率,告别无效加班!❤️

关注我,后续分享更多AI效率工具、实用技巧,帮你少走弯路~

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐