首页 - 文章 - 人工智能指南 - 正文

5 分钟 Whisper 测评，看完没有人比你更懂“语音识别”

奔跑中的奶酪 2022/01/02

1.08W 0

导读

奶酪对“语音识别”的研究，

最早是想把自己喜欢的视频文案保存起来，因为视频内容不仅占用空间大，还没办法全文索引。

将视频的内容“文本化”，我们就能提炼出视频的关键信息，而且还能获得视频细小处的一些遣词用字。

把 20GB 的视频，压缩为 2MB 的文本。

这在以前是断不敢想像的事情，然而现在有了人工智能的加持，这一切都变得触手可及。

一、在线转录

国内最早免费开放在线语音转文字的应用，是网易见外。

它不但是速度快，准确率还超出了人们预期，真正做到了一键转录，被盛赞业界良心，然后没多久，它就下架了。

而现在接棒的是——飞书妙记。

1.1、飞书妙记

飞书妙记是抖音旗下产品，注册登陆后就直接上传音频和视频，即使不需要介绍，你也一看就知道怎么用。

地址：https://www.feishu.cn/product/minutes

1.2、使用体验

速度：快，10 分钟视频只花费了 1分 25 秒。

准确率：绝大部分内容都能正确识别，而且能区分不同说话人。

特色功能：支持中英日 3 种语言，能自动添加标点符号和章节分段，支持免费导出为 TXT 和 SRT 格式。

1.3、同类产品

如果要说有什么缺点的话，那就飞书妙记的免费用存储空间，从原来的 100G 变成 2G，一下子就寒酸了许多。

但和同类产品相比，飞书妙记仍然是更好的选择。

比如讯飞听见、钉钉闪记、阿里云、百度云等产品，它们要么免费额度少，要么需要申请 API，使用门槛高。

而飞书妙记，你可以将视频转换为音频来缩小体积，又或者通过删除已经转写的内容来释放空间。

换句话说，你还是可以无限白票。

二、软件转录

如果你需要转录的内容很多，又或者很长，那么，使用桌面软件来操作会更加方便。

而在这个领域的佼佼者是 —— 剪映。

2.1、剪映

剪映也是是抖音旗下产品，它是一款桌面视频剪辑软件，但同时提供了识别语音功能，使用时需要联网使用。

使用方法也很简单，点击导航栏“文本”，然后选择“智能字幕”，即可一键生成字幕。

地址：https://www.capcut.cn

2.2、使用体验

同样是抖音系产品，剪映的准确率也很高，转录速度更是极奇的快，同样 10 分钟的视频，剪映只用 32 秒。

而且，我们不用像“飞书妙记”那样担心空间不够用。

因为抖音不担心自己的语音识别技术被白票，它们担心的，是没有人上传视频到抖音。

抖音推出剪映的目的，是为了降低用户制作视频门槛，让更多的人参与到视频制作来，抖音的收益在别处罢了。

2.3、同类产品

目前国内能与剪映对标的，当属 B 站推出的“必剪”。

它的产品逻辑一样，也是为了方便用户创作视频，然后上传到 B 站。

然而在免费额度上，必剪远不如剪映，必剪只支持 15 分钟的音频转录，而剪映最大支持 2 小时且不限使用次数。

而且，剪映现在还支持导出字幕，你可以将导出的字幕用在其它软件上，抖音格局大了。

应该说，剪映是视频创作者的必备。

三、离线转录

上面的两款应用都需要联网使用，如果你比较在意隐私的问题，那么你需要一款离线的语音识别工具。

OpeanAI 推出的 Whipser 语音识别模型，绝对是目前最好的选择，没有之一。

对，它和 ChatGPT 是同门师兄弟。

3.1、Whisper

Whipser 多语言语音识别模型，通过了 68 万小时的语音数据训练，支持 99 种语言，对英文的表现更是强无敌。

更重要的是，它开源免费，在电脑上就能离线使用。

地址：https://github.com/openai/whisper

在速度方面。

为应对不同的语音转录需求，Whipser 推出了 tiny、base、small、medium、large 5 个档次的模型。

转录效果依次增加，但相应花费的时间也会增加。

3.2、使用方法

Whisper 使用了 Python 开发，安装后，在文件所在目录打开终端，运行 whisper audio.mp3 即可进行转录。

想要自定义设置的话，则可以在后面追加命令参数，具体包括：

whisper audio.mp3 --命令参数

--task

指定转录方式，默认使用 --task transcribe 转录模式，--task translate 则为翻译模式，目前只支持英文。

--model

指定使用模型，默认使用 --model small，Whisper 还有英文专用模型，就是在名称后加上 .en，这样速度更快。

--language

指定转录语言，默认会截取 30 秒来判断语种，但最好指定为某种语言，比如指定中文是 --language Chinese。

--device

指定硬件加速，默认使用 auto 自动选择，--device cuda 则为显卡，cpu 就是 CPU， mps 为苹果 M1 芯片。

3.3、WhisperDesktop

如果使用 Python 命令行这种形式，门槛太高了，那么图形化软件 WhisperDesktop 会是一个简单的方案。

地址：https://github.com/Const-me/Whisper

为方便下载，我已经将 WhisperDesktop 和模型文件搬运到了国内的不限速网盘。

公众号后台回复关键字 A24 即可下载。

使用方法分为两步：下载软件 + 载入模型。

下载 WhisperDesktop 后，点击运行，然后加载模型文件，最后选择文件即可进行转录。

由于支持 GPU 硬解，转录速度非常的快，我测试了一个 2 分钟的视频，使用 medium 模型，花费不到 20 秒。

PS：具体还得看显卡的性能。

3.4、WAC

另一款基于 Whisper 的图形化软件是 Buzz，支持多个平台，但它不支持 GPU 渲染，导致转录速度非常慢。

好在 Mac 下还有一款叫 Whisper Auto Captions 的应用。

它基于 Whisper.cpp 开发，可以调用 GPU 渲染，转录速度大幅提高，相比原版 Whisper，速度快了 4-45 倍。

而且，它还是目前唯一一款开源免费的 Whisper.cpp 应用，其它的都需要“收费”才能体验完整功能。

更让人惊喜的是，作者还是我们中国的女程序员。

地址：https://whisperautocaptions.com

使用方法：

1、软件大小将近 5G，原因是附带了 Whisper 的所有模型。

2、软件暂不支持视频转录，你需要先将视频转换为 mp3 等音频格式。

3、作者开发的目的是与 FinalCut Pro 搭配，所以打开应用后，你需要在帧率里输入 30，否者软件将无法启用。

3、点击“Create”后，软件会进行转录。

实际测试，一个2分30秒的音频，Small 模型只花费了 11 秒，Medium 花费了 30 秒，Large 模型花费了 55 秒。

四、语音识别对比

下面我们对飞书妙记、剪映、Whisper 这三款语音识别工具进行一下对比。

4.1、准确性对比

就准确性而言。

三款产品里，飞书和剪映在中文识别上的效果更好，大体与 Whipser 的 large 模型相当。

飞书妙记甚至还有标点符号、文章分段、智能纠错等功能，在测试中，飞书也是唯一个能正确转录“谷爱凌”的。

原因是联网转录，“云词库”会自动选择更符合上下文的同音词。

Whisper 的音频数据只有 1/3 来自非英语，在准确性方面，Whisper 对英文的识别错误率为 4.2，中文则为 14.7。

如果转录的内容是英文，那么用 samll 模型就能保证绝大多数正确。

而如果转录的内容是中文，那么至少要用 medium 模型，才能保证绝大多数正确。

Whisper 强在多语言支持，还有超高的英语识别率。

4.2、速度对比

在转录速度方面。

飞书妙记和剪映都需要联网上传，其中剪映的速度最快，而 Whisper 的转录速度，极度依赖显卡的加持。

下面是使用显卡加速，同一段 10 分钟视频的速度对比。

4.3、语种支持

飞书和剪映仅支持“中英日”三种语言，而 Whisper 支持 99 种，Whisper 是外语转录的不二选择。

五、语音识别技巧

而无论怎样，任何一款语音识别工具都没办法保证 100% 准确，我们还需要有一定的技巧。

5.1、纯净输入

如果转录的是歌曲，又或者有嘈音，背景音乐很大，使用人声分离工具，突出人声，那么识别效果将大大提高。

这样的工具很多，可以选择在线应用，也可以选择免费开源的 UVR5。

在线应用：https://vocalremover.org

UVR5：https://ultimatevocalremover.com

5.2、字幕翻译

Whisper 有时转录出来的文本是繁体中文，又或者你想把字幕翻译为英语来做双语字幕。

一个简单的方法，就是将字幕文件在 Chrome 浏览器中打开，使用自带的翻译功能，即可一键翻译为想要的语言。

或者，你也可以选择更专业的字幕工具，比如 Subtitle Edit。

地址：https://github.com/SubtitleEdit/subtitleedit

当然，使用 ChatGPT 翻译工具 Subtitle Translator 会更加准确，不过前提是你有 ChatGPT 的 API Key。

地址：https://github.com/gnehs/subtitle-translator-electron

5.3、标点符号

除了飞书外，其它转录工具都没有标点符号，而且也没有章节分段，如果你想把语音识别后的文本，保存为文章。

一个简单的方法，是利用 ChatGPT 来重新排版，只需要前置输入“提示词”就可以了。

具体是：“修复下面这段文章的标点符号并分成段落：<文本内容>”。

需要注意的是，GPT-3.5 输出的最大限制是 777 个字符，所以每一次输入最好不要超过 777 个中文。

但如果你用的是 GPT-4 的话，就没有这个限制。

5.4、一键转录

如果我有大量的视频转文字，还有视频字幕生成需求，有没有办法一键转录？

有的！

奶酪研究出了一套方法，只需要一个 .bat 文件即可一键转录，具体我会在下期《A25 - 语音一键识别》中介绍。

5.5、实时转录

除了转录视频，有没有办法实时转录直播或者播放中的视频？

当然也有！

我们同样可以利用 Whisper 来实现同声传译，具体我们在下下期《A28 - 同声传译》中再做介绍。

结尾

OpenAI 发布的 Whisper 多语言语音识别模型，绝对算得上是一个“游戏改变者”。

在可预见的未来。

首先，语音识别将会彻底免费，并成为一项公共服务。

其次，视频的语言屏障将会彻底打破，视频一键生成字幕，甚至自动生成字幕，已经成为现实。

还有，视频也将转向文字化，一个 20GB 的视频内容，可以被压缩为 2MB 的文本内容，并且能全文索引。

最后，Whisper 的入场，也会加速人工智能从单模态到多模态的发展。

动动嘴皮就能拍出一部电影的魔幻场景，也正在发生！

强人工智能时代的我们，太幸福啦！

最后

欢迎关注奶酪公众号获取奶酪所有的原创资源，回复文章编号，比如 A24 就可获取对应的资源。
欢迎订阅我的 “奶酪书签专业版”，15年沉淀，超过 5000 个分类井条有序的好用实用 html 网站书签。
本文由「奔跑中的奶酪」原创创作，欢迎订阅、留言和打赏，也欢迎引用和转载，但要注明出处。

上一篇：大声密谋！整治“互不联网”和“超不链接” 下一篇：拜托了！4202 年一定要知道这个搜索技巧

5 分钟 Whisper 测评，看完没有人比你更懂“语音识别”

导读