OpenAI Whisper-音频转文字

开会录了1小时录音，整理笔记要3小时？播客、访谈需要字幕，手动打轴看到头大？想把视频里的台词提取成文字，找不到好用又免费的工具？今天给大家分享一款「打工人必备神器」——OpenAI Whisper，开源免费、本地运行（不用上传云端，隐私安全），支持中文高精度转写，还能自动生成字幕，不管是会议纪要、录音整理，还是视频字幕制作，都能一键搞定！结合我自己踩过的坑（比如FFmpeg安装、重复片段、模型

yeye19891224

294人浏览 · 2026-05-16 13:49:28

yeye19891224 · 2026-05-16 13:49:28 发布

开会录了1小时录音，整理笔记要3小时？播客、访谈需要字幕，手动打轴看到头大？想把视频里的台词提取成文字，找不到好用又免费的工具？

今天给大家分享一款「打工人必备神器」——OpenAI Whisper，开源免费、本地运行（不用上传云端，隐私安全），支持中文高精度转写，还能自动生成字幕，不管是会议纪要、录音整理，还是视频字幕制作，都能一键搞定！

结合我自己踩过的坑（比如FFmpeg安装、重复片段、模型配置），整理了这篇Mac专属保姆级教程，从安装到精通，新手跟着走，全程无卡顿、无多余操作，看完直接上手！

一、先搞懂：Whisper 到底有多香？

Whisper 是 OpenAI 开源的语音转文字（ASR）工具，对比其他转写工具，它的优势直接拉满：

✅ 完全免费：无订阅、无调用次数限制，本地运行不花一分钱
✅ 中文能打：准确率高达92%-96%，支持纯中文、中英混合转写
✅ 操作简单：一行命令就能转写，不用复杂配置
✅ 功能强大：支持音频/视频转文字、自动生成SRT/VTT字幕、语音翻译（转英文）
✅ 隐私安全：全程本地运行，音频不上传云端，敏感内容（会议、访谈）更放心

适用人群：打工人（会议纪要）、自媒体人（视频字幕）、学生（讲座录音）、博主（播客转写），只要有音频转文字需求，它都能胜任！

二、前置准备：必装2个依赖（Mac专属）

Whisper 运行需要两个核心依赖：FFmpeg（处理音频）+ PyTorch（模型运行），先把这两个装完，后续安装Whisper会一帆风顺，重点避坑！

1. 安装 FFmpeg（核心依赖，必装）

打开「终端」，输入以下命令：

brew install ffmpeg

💡 重点避坑（你可能遇到的情况）：

如果终端提示「ffmpeg 8.1 is already installed but outdated」，说明你已经装过，只是需要升级，不用管，系统会自动升级，等待1-5分钟即可（不用外网、不用翻墙，国内网速完全够用）。

安装完成后，输入 ffmpeg -version，能看到版本号，就说明安装成功了。

2. 安装 PyTorch（模型运行依赖）

Whisper 基于PyTorch运行，终端输入以下命令，一键安装（已装的可跳过）：

pip install torch torchvision torchaudio

三、安装 Whisper：两种方式，按需选择（不用重复装）

结合你之前的使用场景，分两种安装方式，重点说明：如果你用 OpenClaw，无需手动 pip 安装！

方式1：OpenClaw 自带（推荐，你已适配）

你之前用的 OpenClaw 已经内置了 Whisper 技能（标注为 openclaw-bundled），无需再用pip install openai-whisper，只需执行一次「激活命令」，就能使用：

# 激活 OpenClaw 内置的 Whisper 技能
openclaw install openai-whisper

执行后，OpenClaw 会自动管理 Whisper 的环境和依赖，不用你手动操心。

方式2：单独安装（不使用 OpenClaw，直接命令行用）

如果不想用 OpenClaw，想直接在终端使用 Whisper，输入以下命令安装：

pip install openai-whisper

安装完成后，输入 whisper --help，出现帮助信息，就说明安装成功。

四、关键配置：3步搞定，不用每次输复杂命令

安装完成后，做3个关键配置，后续使用更省心，彻底解决「每次都要输一堆参数」「警告弹窗」的问题。

1. 设置默认模型为 large（最高精度，不用每次指定）

Whisper 默认模型是 base（小模型，精度一般），你之前指定过 large 模型（最准），设置一次永久生效，再也不用每次加--model large。

✅ 方式1：Mac 全局设置（推荐，不管用不用 OpenClaw 都生效）

echo 'export WHISPER_MODEL="large"' >> ~/.zshrc
source ~/.zshrc

✅ 方式2：OpenClaw 专属设置（只在 OpenClaw 内生效）

openclaw config set skills.openai-whisper.model large

💡 提示：模型只需要下载一次（large 模型约6GB），第一次运行会自动下载，后续直接加载，速度很快。

2. 解决 FP16 警告（Mac CPU 必做）

你之前遇到的「FP16 is not supported on CPU; using FP32 instead」警告，是因为 Mac CPU 不支持半精度计算，只需在命令中加一个参数，就能彻底消除警告，不影响使用。

关键参数：--fp16 False（后续整合到命令中，不用单独输）。

3. 解决重复片段（最实用配置）

很多人用 Whisper 会遇到「同一句话重复识别」（比如你之前的「是人类最重要的」重复出现），这是模型默认参数太敏感导致的，加两个参数就能彻底解决。

关键参数：--temperature 0.0（让模型更稳定）+ --condition_on_previous_text False（禁止重复识别）。

五、核心使用：一键转写，新手也能上手

配置完成后，不管是命令行直接用，还是用 OpenClaw，都能一键转写，以下是最常用的场景，复制命令就能用。

场景1：命令行直接转写（最常用）

整合所有最优参数，中文转写最准、无警告、无重复，直接复制：

whisper 你的音频.mp3 --language Chinese --fp16 False --temperature 0.0 --condition_on_previous_text False

💡 说明：

音频格式支持：mp3、wav、m4a、mp4（视频也能直接转，会自动提取音轨）
自动输出：纯文本（txt）+ 字幕（srt），不用额外设置
如果只想生成字幕，加参数 --output_format srt

场景2：批量转写（多音频高效处理）

如果有多个音频需要转写，不用逐个输入命令，用以下命令批量处理（所有mp3文件一次性转写）：

whisper *.mp3 --language Chinese --fp16 False --temperature 0.0 --condition_on_previous_text False

六、常见问题汇总（避坑必看）

整理了我和很多新手都会遇到的问题，不用百度，直接看这里就能解决！

❓ 第一次运行很慢？答：第一次会自动下载模型（large 约3GB），后续运行秒加载，耐心等一次就好。
❓ 中文识别不准？答：用 large 模型 + 指定 --language Chinese，准确率能达到95%左右，音频越清晰，准确率越高。
❓ 出现重复片段？答：用我们配置的 --temperature 0.0 + --condition_on_previous_text False，90%的重复都会消失。
❓ FFmpeg 安装报错？答：先检查 Homebrew 是否正常，输入 brew update 更新，再重新安装；如果提示依赖缺失，按照终端提示执行 brew link 相关命令即可。
❓ 模型下载失败？答：不用外网，耐心等待，若失败，重新运行转写命令，会自动继续下载。

七、总结：新手必备快捷命令（收藏备用）

不用记复杂参数，收藏这3条命令，覆盖99%的使用场景：

中文最高精度转写（无警告、无重复）： whisper 音频.mp3 --language Chinese --fp16 False --temperature 0.0 --condition_on_previous_text False
OpenClaw 专属转写： openclaw openai-whisper transcribe 音频.mp3 --language Chinese --fp16 False
只生成SRT字幕： whisper 音频.mp3 --language Chinese --fp16 False --output_format srt

最后说一句

Whisper 真的是打工人、自媒体人的「效率神器」，免费、好用、隐私安全，不用再为音频转文字、字幕制作浪费时间。

按照这篇教程操作，从安装到使用，全程无坑，新手也能快速上手。如果遇到其他问题，评论区留言，我会一一回复～

觉得有用，记得点赞、在看、转发给身边有需要的朋友，一起提升效率，告别无效加班！❤️

关注我，后续分享更多AI效率工具、实用技巧，帮你少走弯路～

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

YOLOv11改进 | 融合GMM与LMM：高精度密度估计与局部特征匹配的目标检测新范式

YOLOv11作为实时目标检测的标杆框架，在通用场景（如自然图像中的行人、车辆）中表现卓越，但在（如拥挤人群、密集车辆）与为解决上述问题，本文提出，通过集成与，实现“目标检测+密度估计+小目标增强”的端到端解决方案。GMM建模目标空间分布，提升密度估计精度；LMM强化局部特征匹配，解决小目标与密集目标的漏检问题。改进后，YOLOv11在（Shanghai Tech数据集），同时保持实时性（推理速度

2048 AI社区

618显示器选购前瞻：海信四款显示器新品总有一款满足你的需求

G7 Ultra搭载镜面低反的黑曜屏，既保留了镜面的通透感，又将反射率压到了极低，哪怕你的书桌正对着窗户，也不用担心“屏幕里先看清楚自己的脸”，画面始终干净锐利。过去大家认三星，本质是认它的技术积累。但现在，海信的显示技术早就实现了“全栈自研”：从自研的信芯AI画质芯片，到黑曜屏低反射，再到RGB-Mini LED前沿技术，几十年的显示技术沉淀赋予了它强大的底气。从2499元的真香G7 Pro，到