最近我在整理电脑里的会议录音和几个下载的视频素材,想把里面的说话内容弄成文字稿。以前我都是用那些在线网站,或者手机自带的语音助手。但这次遇到了两个大麻烦:一个是文件太大了,传上去特别慢;另一个是这几个视频内容比较私密,我不太敢传到那种公共的云端服务器上。

找了一圈,被我发现了一个在开源社区很火的工具,叫 VidToText。

备用下载地址

我折腾了一个下午,把这个软件从安装到使用彻底摸了一遍。说实话,这种不联网、不收费、还没广告的工具,现在真的很难得了。今天就想跟大家聊聊这个软件到底好在哪,以及如果你想用,需要注意哪些坑。
在这里插入图片描述

什么是 VidToText,为什么我推荐它

简单来说,VidToText 就是一个运行在你Windows或者Mac电脑上的小软件。它的作用只有一个:你把视频或者音频文件拖进去,它就自动帮你听写,然后生成一个TXT文本文件或者SRT字幕文件。

以前我们用那种在线转换工具,逻辑是这样的:你把文件上传给网站 -> 网站的服务器在云端处理 -> 处理完你再下载回来。

VidToText 的逻辑完全不同:它把一个很厉害的“大脑”(也就是AI模型)直接塞进了你的电脑里。你把文件给它,它就在你本地算,算完了直接给你结果。

我决定把之前的付费软件停掉,改用这个,主要是因为三个很现实的原因。

一个是隐私安全。这是我最看重的。因为它是离线运行的,哪怕你把网线拔了,它照样能工作。这就意味着你的录音、你的视频,从头到尾都只待在你的硬盘里,没有任何数据会流向互联网。对于做公司会议记录,或者是处理一些个人隐私视频的人来说,这种安全感是那些在线平台给不了的。

二是真的免费且没有限制。市面上很多工具所谓的“免费”都是有套路的,比如限制你只能转5分钟,或者文件大小不能超过100M。一旦你要转一个小时的讲座视频,立马就弹窗让你充会员。VidToText 是开源的,只要你的电脑不关机,你想转多久的视频都可以,十个小时的连续剧它也能给你跑出来,不用花一分钱。

三是它比我想象中要智能。它里面用的是 OpenAI 开源的 Whisper 模型。这个模型在业界的口碑非常好,对中文、英文的识别率很高,甚至这时候视频里有背景音乐,或者说话人有一点口音,它也能识别个八九不离十。

核心功能有哪些

这个软件界面做得挺朴素的,没有什么花哨的动画,打开就是几个按钮。但功能都很实用,正好切中我们的痛点。

支持的格式特别多
我测试了一下,手机录的 MP3、M4A,还有相机拍的 MP4、MOV 格式,甚至是网上下载的 MKV 视频,直接往里拖都能识别。它底层应该是调用了通用的解码器,所以只要是正常的音视频文件,基本都能吃得消。

多种模型随意切换
这是我觉得最人性化的地方。它内置了好几种不同“智商”的 AI 模型。
如果你电脑配置比较低,或者你赶时间,选“Tiny”或者“Base”模型,速度飞快,可能一段30分钟的音频,2分钟就转完了,不过错别字可能会稍微多一点。
如果你追求精准,电脑配置也不错,选“Large”模型。虽然速度慢点,但那个准确率真的惊人,连很多专业名词都能打对。

能利用显卡加速
这一点对有独立显卡的电脑很友好。处理视频转文字其实挺费算力的。如果你的电脑里有 NVIDIA 的显卡,这软件能调用显卡来跑数据。我用我的笔记本试了一下,开启显卡加速后,速度比单纯用 CPU 跑快了大概 5 到 10 倍。

直接导出字幕文件
识别完成后,它不仅能给你一段纯文本,还能生成 SRT 字幕。这个功能对做自媒体的朋友太有用了。你把生成的 SRT 文件往剪映或者 PR 里一拖,时间轴都是对齐的,稍微改改错字就能直接出片,省了大概80%做字幕的时间。

安装和使用过程中的几个坑

虽然我说这个软件好用,但它毕竟是开源软件,不像商业软件那样把所有路都给你铺平了。我在安装使用的时候踩了几个坑,这里提前告诉大家,帮大家避雷。

路径千万别带中文
这是很多国外开源软件的通病。你安装这个软件的文件夹,以及你存放视频文件的文件夹,名字里最好全用英文或者数字。
我第一次用的时候,把视频放在了“桌面/新建文件夹”里,结果软件一直报错,没有任何反应。后来我把视频挪到D盘根目录,改名叫“video.mp4”,立马就正常了。这一点非常重要。

第一次运行需要联网
前面我说它是离线可用的,但这有个前提。当你第一次选择某个模型(比如 Base 模型)的时候,软件需要先从网上把这个模型文件下载下来。这个模型文件大概几百兆到几个G不等。
所以,刚安装好软件的时候,别急着断网。先随便找个小音频,把那几个常用的模型都跑一遍,等它提示模型下载好了,以后你再带着电脑去没网的地方,它就能离线工作了。

电脑配置的问题
这个软件对电脑内存有一定要求。如果你用最高级的 Large 模型,它可能需要占用 4G 到 8G 的内存。如果你的电脑是那种只有 8G 内存的老办公本,跑 Large 模型可能会直接卡死或者闪退。
建议老电脑用户老老实实选 Base 或者 Small 模型,其实准确率对于日常记录来说完全够用了。

关于幻觉问题
AI 有个毛病,就是这时候没人说话,只有杂音,它也可能脑补出一些莫名其妙的句子。VidToText 偶尔也会有这个问题。比如视频最后有段很长的纯音乐,它可能会识别出“谢谢观看”或者一些重复的乱码。所以导出的文案,最后还是得人工大概扫一眼,把头尾多余的东西删掉。

和其他同类工具的真实对比

为了让大家看得更清楚,我拿 VidToText 和平时大家接触比较多的两类工具做个对比。一类是像讯飞听见这种商业平台,一类是手机自带的语音输入法。

对比项目 VidToText (开源版) 在线收费平台 (如某飞、某记) 手机/输入法自带转写
花钱吗 完全免费 按分钟收费或包月,挺贵的 基础免费,高级功能收费
要联网吗 不需要 (离线可用) 必须全程联网 必须联网
隐私性 文件保存在本地,别人看不到 文件上传云端,有泄露风险 上传云端处理
视频时长 无限制 (哪怕10小时都行) 通常限制单文件大小或时长 只能短时间录音转写
准确率 很高 (取决于模型大小) 很高 (专业优化过) 一般 (受环境噪音影响大)
电脑要求 有一定门槛,配置越高越快 没要求,能上网就行 手机能用就行
字幕功能 自动生成带时间戳字幕 需额外付费或特定会员 通常只有纯文本

看完这个表你应该就明白了。

如果你是那种在大公司上班,经常要处理涉密会议录音,或者你是做长视频的自媒体人,不想每个月给平台交几十块钱的会员费,也不怕稍微折腾一下电脑配置,那 VidToText 绝对是你的首选。

但如果你只是偶尔想把一句微信语音转成文字,或者电脑配置特别老旧,连打开个浏览器都卡,那可能还是在线工具或者手机自带的功能更适合你。

写这篇文章的时候,我又用它跑了一个半小时的播客录音。它就在后台静静地跑,也没打扰我写字。等我文章写完了,那边的文本也出来了。这种踏实的感觉,确实是那些网页版工具给不了的。

工具是为人服务的,越简单、越纯粹的工具,往往越能留到最后。希望这个小推荐能帮大家省点钱,也省点时间。如果你手里正好有堆积如山的录音文件没整理,不妨去试试看。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐