全网首发,没有比之更快的语音识别方法!
![全网首发,没有比之更快的语音识别方法!](https://image.baidu.com/search/down?url=https://fc.sinaimg.cn/large/7a6a15d5gy1he9i751pwuj21hc07vjz9.jpg)
许多年以后,坐在电脑前的奶酪,一定会想起年轻时自己手敲字幕敲到手抽筋的那个下午。
如何将 200G 的视频,压缩为 20M 的文字,如何提取视频里说话人的台词,
如何将视频会议转录为文字,如何一键语音转文字。
今天,它们都成为了现实!
1.1、命令行软件
在上一篇文章《A24 - 语音识别》里,奶酪介绍了软件一些语音识别软件,它们都很好用。
那为什么还要开一个新项目呢?因为“命令行软件”更方便。
我们电脑里的大多数软件,是“图形化软件”。
比如 Word、Excel、Photoshop,它们的一大特点是「所见即所得」。
软件的所有内容,都放在我们眼前,只需要用鼠标点几下,就能完成任务,上手非常容易。
还有一种软件,叫“命令行软件”。
它的特点是「所想即所得」,可以将我们大脑里想的内容「逻辑文本化」。
通过不同的命令组合,可以实现任务的批处理和自动化,因此命令行软件的上手难度也较大。
可一旦你掌握以后,你在这上面花费的时间,将无限趋近于零。
1.2、极简安装
下面是本文内容的极简安装流程,没有 What,没有 Why,只有 How。
一键语音识别 - 详细 |
|
---|---|
简介 | |
1、安装 FFmpeg | 下载地址,选择 FFmpeg.exe。 |
2、下载 奶酪配置包 | 下载地址,选择 WhisperCli.7z 和 WhisperCli_Large.7z。 |
3、点击 开始.bat | 可能需要用“管理员身份”运动。 |
4、右键 “发送到” | 即可一键转录。 |
简介 | |
1、安装 FFmpeg | 下载地址,选择 FFmpeg.zip。 |
2、安装 WAC | 下载地址,一定要安装到“应用程序”文件夹里。 |
3、下载 奶酪配置包 | 下载地址,选择 快速操作Workflow.zip。 |
4、右键 “快速操作” | 即可一键转录。 |
简介 | |
1、下载 奶酪配置包 | 下载地址,选择 CapsWriterCli.7z 和 CapsWriterCli_Full.7z。 |
2、点击 开始.bat | 可能需要用“管理员身份”运动。 |
3、右键 “发送到” | 即可一键转录。 |
4、Full 完整版 | 第一次加载模型需要 30 秒,后续将不再需要,请再次右键调用。 |
1.3、工具选择
这么多转录工具,我要怎么选择?由于 CapsWriter 只支持中英文,Whisper 支持 100 种语言。
所以,结论就是。
• 最快中文转录:CapsWriterCli
• 最快英文转录:CapsWriterCli
• 最快多语言转录:WhisperCli
• 最佳中文转录:CapsWriterCli_Full
• 最佳英文转录:WhisperCli_Large
• 最佳多语言转录:WhisperCli_Large
• 最佳转录并翻译:WhisperCli_Large
1.4、结尾
奶酪的这个项目,已经更新了多个版本,久经考验,它就是目前的最快语音转文字,没有之一。
也许,你现在还感觉不到它的好。
但随着大家电脑性能越来越好,奶酪的配置包一定会火。
它也一定会成为了你装机必备。
当然,上面的这些内容还只是“前置安装”,真正的“爽点”,是接下来“一键识别”的操作实现。
2.1、前置软件
要让本项目跑起来,首先需要安装 FFmpeg。(如已安装,可略过本节)
不用担心,使用时不需要打开 FFmpeg,它会自动调用,Whisper 需要用它来提取声音数据。
官方网站:https://ffmpeg.org/download.html
本地下载:https://www.lanzouh.com/b01d4w7e7a
下载 FFmpeg 后,
我们不需要安装,但需要“添加环境变量。
这样做的作用,是为了在 CMD 窗口操作时,可以省去输入软件的具体路径。
几乎所有命令行工具都可以这样配置。
也正因如此,
我们可以将所有命令行软件,都放在同一个文件夹下。
只需要设置一次系统环境变量,那么这个文件夹下的所有命令行软件,就都会自动生效。
比如奶酪就将所有的命令行软件,放在了 D:\Commandline 里。
使用奶酪的「一键加入系统环境变量.bat」脚本,还可以一键将当前目录加入到系统环境变量。
如果 bat 自动脚本添加失败,那么手动添加环境变量的操作如下:
最后,在 CMD 窗口或者终端输入软件名,比如 ffmpeg,如果有返回内容,而不是 not found。
则说明配置成功。
2.2、Whisper
2022 年 9 月,OpenAI 发布 Whisper 语音识别模型,支持 99 种语言。
但 Whisper 的速度较慢,于是有位叫 ggerganov 的网友用 C/C++ 重新编译了 Whisper.cpp。
它不但支持所有平台,相比原版 Whisper,速度更是快了 4-45 倍。
且支持核显,支持独显,ARM 芯片也同样支持。
与此同时,还有一位叫 Const-me 的网友,他在 Whisper.cpp 的基础上进行了二进制编译。
推出了图形化应用 WhisperDesktop,同时还有命令行的版本。
地址:https://github.com/Const-me/Whisper
2.3、奶酪配置包
但是,到了这一步,操作也还是麻烦,命令行软件也只是个“毛坯房”。
于是,奶酪在它的基础上又进行了配置,把操作难度“打”了下来,现在你可以直接“拎包入住”。
奶酪的配置包,可以说是目前最快的 Whipser 语音识别方法,没有之一。
而你要做的,就是点击一下“开始.bat”。
实际测试:
我用的是 AMD 核显,一个 2:30 秒的文件,Large 模型用了 1:20 秒,Meidum 40 秒。
而如果是用 4060 显卡,也就是几秒钟的事。
2.4、使用方法
考虑到速度和准确率,奶酪配置包分成了两个版本。
标准 版本:使用 Medium 模型,在速度和准确度上最均衡,大小 1.3G。
Large 版本:使用 Large 模型,识别更加准确,但需要花费的时间也更多,大小 2.6G。
当然,两个版本你都可以安装上,按需使用,从此,你的电脑就拥有了“语音一键识别”功能。
下载地址:https://www.123pan.com/s/7bzA-8kfOd.html
使用方法:
首先,下载压缩包并解压到任意位置。
然后,点击“开始.bat”,“语音识别”的快捷操作,就会自动添加到右键的“发送到”菜单里。
最后,选择任意单个文件、多个文件,又或者文件夹。
右键菜单选择,即可进行一键或批量转录。
如果需要添加其它语言。
可以打开“batch”文件夹,一键添加所有语言,同时还可以对“发送到”菜单进行编辑。
Mac 平台能不能也实现 Windows 那样的一键识别呢?能!而且思路也大致相同。
3.1、前置软件
首先,同样也是安装 FFmpeg。
方法很简单,直接把所有命令行软件直接放在 /usr/local/bin 文件夹下,然后就会自动生效。
下载地址:https://www.123pan.com/s/7bzA-HGIOd.html
3.2、WAC
Mac 平台下也有一款基于 Whisper.cpp 开发的应用,叫 Whisper Auto Captions。
支持 Intel 和 ARM 芯片,它解决了下 Whisper 无法调用 GPU 的问题,转录速度大为提升。
同时,它还是目前少用的完全免费的 Whisper.cpp 应用。
不过,原版 Whisper Auto Captions 是一款图形化应用,但好在它是基于 Whisper.cpp 开发。
我们还是可以用它内置的“命令行程序”来实现一键操作。
安装方法:
首先,下载 Whisper Auto Captions。
地址:https://vu3mopq3x8.feishu.cn/docx/Go9IdrSkpochcoxpgHfcl7nhn2d
然后,解压安装,一定要将 Whisper Auto Captions 放到“应用程序”文件夹里,这一步很重要。
3.2、奶酪配置包
Mac 平台下,同样也有类似 Windows 右键菜单的“发送到”功能,叫做“自动操作”。
具体实现方法,是打开“自动操作”,新建一个“快捷操作”。
输入以下代码。
不想操作也没关系。
奶酪已经把脚本准备好了,只需要双击安装,脚本就会自动存放在 ~/Library/Services 下。
在“访达”打开文件夹的快捷键是:Cmd+Shift+G
下载地址:https://www.123pan.com/s/7bzA-jYIOd.html
3.4、使用方法
之后,选择任意单个文件、多个文件,又或者文件夹。
在右键菜单里的“快速操作”,选择“使用 Whisper 转录” 即可一键调用转录。
要设置“快速操作”菜单的显示内容,你可以在“设置—>隐私与安全性—>扩展—>访达”里修改。
与此同时,阿里的开源语音识别工具 FunASR,把国产「语音识别」带到了前所未有的高度。
4.1、CapsWriter
Whisper 支持超过 99 种语言,V3 版本甚至新增支持“粤语”。
但就「中文识别」来说,阿里推出的开源项目 FunASR,不但准,而且速度极快,堪称地表最。
30 分钟的音频,转录最快只需要 15 秒。
在 FunASR 的基础上,网友 HaujetZhao 开发出了 CapsWriter Offline,操作更加简单。
而且,只需要按下"大写锁定键"就可以识别你的录音。
地址:https://github.com/modelscope/FunASR
地址:https://github.com/HaujetZhao/CapsWriter-Offline
4.2、奶酪配置包
考虑到使用上的便捷性,奶酪在 CapsWriter 的基础上推出了 CLI 版本:CapsWriterCli。
而你,只需要点击一次 “开始.bat”,就可以一键使用。
使用方法:
你可以选择单个文件、多个文件、又或者文件夹,转录后生成的文件,会与原文件并列显示。
注意事项:
奶酪的 CapsWritherCli 分成了两个版本。
标准版:只有语音识别功能,极速版本,加载模型只需要 3 秒。
完整版:语音识别+自动标点,第一次加载模型需要 30 秒左右。
下载地址:https://www.123pan.com/s/7bzA-8kfOd.html
4.3、使用方法
需要注意的是。
1、CapWriterCli 只支持中、英两种语言。
2、在使用 CapWriterCli_Full 完整版时,第一次加载模型大概需要 30 秒,后续将不再需要。
3、此时,你需要「再次」在右键菜单里调用一键转录。
经过奶友们的反馈,目前项目还存在这些问题。
常见问题
1、不支持 2012 年以前的 CPU。
支持 Win 7 系统,但模型渲染需要 F16C 指令集,因此不支持 2012 年以前生产的 CPU。
2、部分文件格式不支持。
已知 .flv 视频会报错不支持,用任意转换软件,转换为 .mp3 格式即可。
3、转录过程中 CMD 窗口显示为 ?问号。
WhisperCli 标准版有这个问题,是编码原因,不影响实际转的结果,可以不用管它。
4、超长音频/视频,可能会出现字幕重复的问题。
可以分段后再进行转录,奶酪写了一个自动分段脚本,将文件拖入到 bat 脚本上即可一键分段。
脚本下载:https://www.lanzouo.com/b01d5640ab
最后
- 欢迎关注奶酪 公众号 获取奶酪所有的原创资源,回复文章编号,比如 i01 就可获取对应的资源。
- 欢迎订阅我的 “奶酪书签专业版”,15年沉淀,超过 5000 个分类井条有序的好用实用 html 网站书签。
- 本文由「奔跑中的奶酪」原创创作,欢迎订阅、留言和 打赏,也欢迎引用和转载,但要注明出处。
![avatar](https://www.runningcheese.com/wp-content/uploads/299fcc4ad59c6e1bfba77e96c0de11bf.png)
![avatar](https://www.runningcheese.com/wp-content/uploads/346b418612975eda827cb8bffd2ccfd9.png)
酪大分享的软件识别精度令我满意,想问下酪大有没有比较便宜,可以区分发言人的语音识别呀,像科大讯飞那样的。做会议纪要的时候比较方便
阿里的funasr不推下?
推荐一个好用的语音转文字,用了好几个月了一直在用。特别是在跟 AI 对话的时候,打字的效率一下高了非常多
https://github.com/HaujetZhao/CapsWriter-Offline/
Win7x64运行报错[
Get-ChildItem:找不到与参数名称“File”匹配的参数。
所在位置 行:1 字符:125
+ .\main.exe -m .\models\ggml-large.bin -l zh……NamedparameterNotFound]
Win10正常。
测试音频文件没有问题,但测试了一个200多兆的视频文件,然后跑了五分钟后不动了,放了一个晚上还是没有出结果。
奶酪,想问一下下载完FFmpeg之后要对他进行什么。还有mac端的环境变量哪一步不是很明白。谢谢