奔跑中的奶酪

全网首发,没有比之更快的语音识别方法!

全网首发,没有比之更快的语音识别方法!

 

许多年以后,坐在电脑前的奶酪,一定会想起年轻时自己手敲字幕敲到手抽筋的那个下午。

如何将 200G 的视频,压缩为 20M 的文字,如何提取视频里说话人的台词,

如何将视频会议转录为文字,如何一键语音转文字。

今天,它们都成为了现实!

1.1、命令行软件

在上一篇文章《A24 - 语音识别》里,奶酪介绍了软件一些语音识别软件,它们都很好用。

那为什么还要开一个新项目呢?因为“命令行软件”更方便。

我们电脑里的大多数软件,是“图形化软件”。

比如 Word、Excel、Photoshop,它们的一大特点是「所见即所得」。

软件的所有内容,都放在我们眼前,只需要用鼠标点几下,就能完成任务,上手非常容易

i57_命令行软件

还有一种软件,叫“命令行软件”。

它的特点是「所想即所得」,可以将我们大脑里想的内容「逻辑文本化」。

通过不同的命令组合,可以实现任务的批处理和自动化,因此命令行软件的上手难度也较大。

可一旦你掌握以后,你在这上面花费的时间,将无限趋近于零

1.2、极简安装

下面是本文内容的极简安装流程,没有 What,没有 Why,只有 How。

 一键语音识别 - 详细

 Win 版 Whisper 简介
1、安装 FFmpeg 下载地址,选择 FFmpeg.exe
2、下载 奶酪配置包 下载地址,选择 WhisperCli.7zWhisperCli_Large.7z
3、点击 开始.bat 可能需要用“管理员身份”运动。
4、右键 “发送到” 即可一键转录。
 Mac 版 Whisper 简介
1、安装 FFmpeg 下载地址,选择 FFmpeg.zip
2、安装 WAC 下载地址,一定要安装到“应用程序”文件夹里。
3、下载 奶酪配置包 下载地址,选择 快速操作Workflow.zip
4、右键 “快速操作” 即可一键转录。
 Win 版 FunASR 简介
1、下载 奶酪配置包 下载地址,选择 CapsWriterCli.7zCapsWriterCli_Full.7z
2、点击 开始.bat 可能需要用“管理员身份”运动。
3、右键 “发送到” 即可一键转录。
4、Full 完整版 第一次加载模型需要 30 秒,后续将不再需要,请再次右键调用。

1.3、工具选择

这么多转录工具,我要怎么选择?由于 CapsWriter 只支持中英文Whisper 支持 100 种语言。

所以,结论就是。

• 最快中文转录:CapsWriterCli
• 最快英文转录:CapsWriterCli
• 最快多语言转录:WhisperCli

• 最佳中文转录:CapsWriterCli_Full
• 最佳英文转录:WhisperCli_Large
• 最佳多语言转录:WhisperCli_Large
• 最佳转录并翻译:WhisperCli_Large

1.4、结尾

奶酪的这个项目,已经更新了多个版本,久经考验,它就是目前的最快语音转文字,没有之一。

也许,你现在还感觉不到它的好。

但随着大家电脑性能越来越好,奶酪的配置包一定会火。

它也一定会成为了你装机必备。

当然,上面的这些内容还只是“前置安装”,真正的“爽点”,是接下来“一键识别”的操作实现。

2.1、前置软件

要让本项目跑起来,首先需要安装 FFmpeg。(如已安装,可略过本节)

不用担心,使用时不需要打开 FFmpeg,它会自动调用,Whisper 需要用它来提取声音数据。

官方网站:https://ffmpeg.org/download.html

本地下载:https://www.lanzouh.com/b01d4w7e7a

A25_FFmpeg

下载 FFmpeg 后,

我们不需要安装,但需要“添加环境变量

这样做的作用,是为了在 CMD 窗口操作时,可以省去输入软件的具体路径

几乎所有命令行工具都可以这样配置。

A25_FFmpge1

也正因如此,

我们可以将所有命令行软件,都放在同一个文件夹下

只需要设置一次系统环境变量,那么这个文件夹下的所有命令行软件,就都会自动生效。

比如奶酪就将所有的命令行软件,放在了 D:\Commandline 里。

使用奶酪的「一键加入系统环境变量.bat」脚本,还可以一键将当前目录加入到系统环境变量。

A25_FFmpge2

如果 bat 自动脚本添加失败,那么手动添加环境变量的操作如下:

A25_FFmpge3

最后,在 CMD 窗口或者终端输入软件名,比如 ffmpeg,如果有返回内容,而不是 not found

则说明配置成功。

A25_FFmpge4

2.2、Whisper

2022 年 9 月,OpenAI 发布 Whisper 语音识别模型,支持 99 种语言。

但 Whisper 的速度较慢,于是有位叫 ggerganov 的网友用 C/C++ 重新编译了 Whisper.cpp

它不但支持所有平台,相比原版 Whisper,速度更是快了 4-45 倍。

且支持核显,支持独显,ARM 芯片也同样支持。

A25_WhisperCli

与此同时,还有一位叫 Const-me 的网友,他在 Whisper.cpp 的基础上进行了二进制编译。

推出了图形化应用 WhisperDesktop,同时还有命令行的版本。

地址:https://github.com/Const-me/Whisper

A25_WhisperCli2

2.3、奶酪配置包

但是,到了这一步,操作也还是麻烦,命令行软件也只是个“毛坯房”。

于是,奶酪在它的基础上又进行了配置,把操作难度“”了下来,现在你可以直接“拎包入住”。

奶酪的配置包,可以说是目前最快的 Whipser 语音识别方法,没有之一。

而你要做的,就是点击一下“开始.bat”。

A25_WhisperCli8

实际测试:

我用的是 AMD 核显,一个 2:30 秒的文件,Large 模型用了 1:20 秒,Meidum 40 秒。

而如果是用 4060 显卡,也就是几秒钟的事。

2.4、使用方法

考虑到速度和准确率,奶酪配置包分成了两个版本。

标准 版本:使用 Medium 模型,在速度和准确度上最均衡,大小 1.3G。

Large 版本:使用 Large 模型,识别更加准确,但需要花费的时间也更多,大小 2.6G。

当然,两个版本你都可以安装上,按需使用,从此,你的电脑就拥有了“语音一键识别”功能。

下载地址:https://www.123pan.com/s/7bzA-8kfOd.html

、A25_WhisperCli9

使用方法:

首先,下载压缩包并解压到任意位置。

然后,点击“开始.bat”,“语音识别”的快捷操作,就会自动添加到右键的“发送到”菜单里。

A25_WhisperCli4

最后,选择任意单个文件、多个文件,又或者文件夹

右键菜单选择,即可进行一键或批量转录。

A25_WhisperCli7

如果需要添加其它语言。

可以打开“batch”文件夹,一键添加所有语言,同时还可以对“发送到”菜单进行编辑。

A25_WhisperCli6

Mac 平台能不能也实现 Windows 那样的一键识别呢?能!而且思路也大致相同。

3.1、前置软件

首先,同样也是安装 FFmpeg

方法很简单,直接把所有命令行软件直接放在 /usr/local/bin 文件夹下,然后就会自动生效。

下载地址:https://www.123pan.com/s/7bzA-HGIOd.html

i57_Mac_安装下载软件

3.2、WAC

Mac 平台下也有一款基于 Whisper.cpp 开发的应用,叫 Whisper Auto Captions

支持 IntelARM 芯片,它解决了下 Whisper 无法调用 GPU 的问题,转录速度大为提升。

同时,它还是目前少用的完全免费的 Whisper.cpp 应用。

A24_WAC

不过,原版 Whisper Auto Captions 是一款图形化应用,但好在它是基于 Whisper.cpp 开发。

我们还是可以用它内置的“命令行程序”来实现一键操作。

安装方法:

首先,下载 Whisper Auto Captions

地址:https://vu3mopq3x8.feishu.cn/docx/Go9IdrSkpochcoxpgHfcl7nhn2d

然后,解压安装,一定要将 Whisper Auto Captions 放到“应用程序”文件夹里,这一步很重要。

A25_WAC2

3.2、奶酪配置包

Mac 平台下,同样也有类似 Windows 右键菜单的“发送到”功能,叫做“自动操作”。

具体实现方法,是打开“自动操作”,新建一个“快捷操作”。

输入以下代码。

A25_WAC3

不想操作也没关系。

奶酪已经把脚本准备好了,只需要双击安装,脚本就会自动存放在 ~/Library/Services 下。

在“访达”打开文件夹的快捷键是:Cmd+Shift+G

下载地址:https://www.123pan.com/s/7bzA-jYIOd.html

A25_WAC4

3.4、使用方法

之后,选择任意单个文件、多个文件,又或者文件夹

在右键菜单里的“快速操作”,选择“使用 Whisper 转录” 即可一键调用转录。

A25_WAC7

要设置“快速操作”菜单的显示内容,你可以在“设置—>隐私与安全性—>扩展—>访达”里修改。

A25_WAC5

与此同时,阿里的开源语音识别工具 FunASR,把国产「语音识别」带到了前所未有的高度。

4.1、CapsWriter

Whisper 支持超过 99 种语言,V3 版本甚至新增支持“粤语”。

但就「中文识别」来说,阿里推出的开源项目 FunASR,不但准,而且速度极快,堪称地表最。

30 分钟的音频,转录最快只需要 15 秒。

在 FunASR 的基础上,网友 HaujetZhao 开发出了 CapsWriter Offline,操作更加简单。

而且,只需要按下"大写锁定键"就可以识别你的录音。

地址:https://github.com/modelscope/FunASR

地址:https://github.com/HaujetZhao/CapsWriter-Offline

A25_CapsWriter

4.2、奶酪配置包

考虑到使用上的便捷性,奶酪在 CapsWriter 的基础上推出了 CLI 版本:CapsWriterCli

而你,只需要点击一次 “开始.bat”,就可以一键使用。

使用方法

你可以选择单个文件、多个文件、又或者文件夹,转录后生成的文件,会与原文件并列显示

A25_CapsWriter2

注意事项

奶酪的 CapsWritherCli 分成了两个版本。

标准版:只有语音识别功能,极速版本,加载模型只需要 3 秒。

完整版:语音识别+自动标点,第一次加载模型需要 30 秒左右。

下载地址:https://www.123pan.com/s/7bzA-8kfOd.html

A25_CapsWriter4

4.3、使用方法

需要注意的是。

1、CapWriterCli 只支持中、英两种语言。

2、在使用 CapWriterCli_Full 完整版时,第一次加载模型大概需要 30 秒,后续将不再需要

3、此时,你需要「再次」在右键菜单里调用一键转录。

A25_CapsWriter3

经过奶友们的反馈,目前项目还存在这些问题。

常见问题

1、不支持 2012 年以前的 CPU。

支持 Win 7 系统,但模型渲染需要 F16C 指令集,因此不支持 2012 年以前生产的 CPU。

2、部分文件格式不支持。

已知 .flv 视频会报错不支持,用任意转换软件,转换为 .mp3 格式即可。

3、转录过程中 CMD 窗口显示为 ?问号。

WhisperCli 标准版有这个问题,是编码原因,不影响实际转的结果,可以不用管它。

4、超长音频/视频,可能会出现字幕重复的问题

可以分段后再进行转录,奶酪写了一个自动分段脚本,将文件拖入到 bat 脚本上即可一键分段。

脚本下载:https://www.lanzouo.com/b01d5640ab

A25_常见问题



最后

  1. 欢迎关注奶酪 公众号 获取奶酪所有的原创资源,回复文章编号,比如 i01 就可获取对应的资源。
  2. 欢迎订阅我的 “奶酪书签专业版”,15年沉淀,超过 5000 个分类井条有序的好用实用 html 网站书签。
  3. 本文由「奔跑中的奶酪」原创创作,欢迎订阅、留言和 打赏,也欢迎引用和转载,但要注明出处。
注:本文由 奔跑中的奶酪 作者:奔跑中的奶酪 发表,其版权均为作者所有,如需转载,请注明作者名字以及文章来源。
96
avataravatar

评论:

6 条评论,访客:0 条,站长:0 条
  1. avatar
    James发布于: 

    酪大分享的软件识别精度令我满意,想问下酪大有没有比较便宜,可以区分发言人的语音识别呀,像科大讯飞那样的。做会议纪要的时候比较方便

  2. 马云
    马云发布于: 

    阿里的funasr不推下?

  3. StK
    StK发布于: 

    Win7x64运行报错[
    Get-ChildItem:找不到与参数名称“File”匹配的参数。
    所在位置 行:1 字符:125
    + .\main.exe -m .\models\ggml-large.bin -l zh……NamedparameterNotFound]
    Win10正常。

  4. cd哥
    cd哥发布于: 

    测试音频文件没有问题,但测试了一个200多兆的视频文件,然后跑了五分钟后不动了,放了一个晚上还是没有出结果。

  5. 南山
    南山发布于: 

    奶酪,想问一下下载完FFmpeg之后要对他进行什么。还有mac端的环境变量哪一步不是很明白。谢谢

发表回复