Python中用SpeechRecognition库和 vosk模型来识别语音-程序员宅基地

技术标签: python  菜鸟学python  人工智能  xcode  语音识别  开发语言  

Python中的SpeechRecognition库是一个比较好用的语音识别模块,提供了将语音识别成文字的方法,支持中文识别。

一、SpeechRecognition库的安装

使用pip命令安装即可:

​pip install SpeechRecognition

当安装不成功时,可以强制:

​pip install --force- SpeechRecognition

二、SpeechRecognition库的导入:

import speech_recognition as sr
r = sr.Recognizer()

注意:导入库的名称与安装名称的略有不同。

三、识别麦克风输入的语音:

# 麦克风录音
mic = sr.Microphone()
with mic as source:
    print("请说话...")
    r.adjust_for_ambient_noise(source)
    audioData = r.listen(source)
    # print(type(audioData))

四、或者直接识别语音文件:

# 识别语音文件
audioFile = sr.AudioFile("渔父.mp3")
with audioFile as source:
   audioData = r.record(source)

注意语音文件“渔父.mp3”放在主程序同一文件夹中,故没有指明路径。

不管你是要识别通过麦克风现场输入的语音,还是识别现有的语音文件,最后都是通过

audioData = r.record(source)语句读取到audioData对象中,再通过语音识别模型来识别成文本。

语音识别的模型有很多,如Google Speech API,CMU Sphinx,Vosk等。我们以能线下使用的Vosk模型为例来说明使用方法。

五、安装vosk库

pip install vosk

speechrecognition提供了方便的使用vosk的函数

Recognizer.recognize_vosk(audioData)

虽然我们安装了Vosk的库,但好像其中没有包含Vosk语音模型,还需要单独下载。打开VOSK Models链接,可以看到各种语言的语音模型:

我们要识别中文,当然要下载中文语音模型:

下载各个模型到主程序文件夹下,解压,将想要使用的语音模型文件名改为“model”

我试了42M和1.3G两个语音模型,好像识别效果差不多,唯一的区别是大的语音模型加载时间长。也许是我识别的古文的原因?

六、语音识别

said = r.recognize_vosk(audioData) # 下载的语音模型解压后须改文件夹名为“model”
print("you said:", formulateResult(said))

七、运行结果:

我是用现成的语音文件“渔父.mp3”来识别的。根据程序运行顺序,应是先读取“渔父.mp3”到audioData中,再加载同一文件夹下“model”中的Vosk语音模型,然后识别并显示出识别结果。

为了测试识别效果,我又用一段现代文“考场须知.mp3”来测试,识别效果还是好很多:

全文代码:

import speech_recognition as sr
import vosk
import pyaudio
r = sr.Recognizer()

# model = vosk.Model("model") # 在录音后自动加载,前期加载无效
# pip install SpeechRecognition

'''
# 直接录音
mic = sr.Microphone()
with mic as source:
    print("请说话...")
    r.adjust_for_ambient_noise(source)
    audioData = r.listen(source)
    # print(type(audioData))

'''
# 使用语音文件
audioFile = sr.AudioFile("考场须知.mp3")
with audioFile as source:
   audioData = r.record(source)


def formulateResult(resu):
    start = resu.index('"', resu.index('"', resu.index('"') + 1) + 1) + 1
    end = resu.index('"', start)
    return resu[start:end]

# pip install vosk;模型网站 https://alphacephei.com/vosk/models,两个模型一大一小,大的也不见得就识别准确
# said = r.recognizer_instance.recognize_vosk(audioData)
said = r.recognize_vosk(audioData) # 下载的语音模型解压后须改文件夹名为“model”
# said = r.rec(audioData)
print("you said:", formulateResult(said))

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/m0_60659514/article/details/135450044

智能推荐

linux中cgroup的简单使用_cgroup使用-程序员宅基地

文章浏览阅读2.5k次,点赞26次,收藏34次。Linux CGroup全称Linux Control Group, 是Linux内核的一个功能,用来限制,控制与分离一个进程组群的资源(如CPU、内存、磁盘输入输出等)。这个项目最早是由Google的工程师在2006年发起(主要是Paul Menage和Rohit Seth),最早的名称为进程容器(process containers)。在2007年时,因为在Linux内核中,容器(container)这个名词太过广泛,为避免混乱,被重命名为cgroup,并且被合并到2.6.24版的内核中去。_cgroup使用

Halcon缺陷检测之(Blob+差分法&&模板匹配+差分法)_工业视觉检测开发blob-程序员宅基地

文章浏览阅读8.9k次,点赞27次,收藏166次。一、缺陷检测概述  缺陷检测是机器视觉重要的应用方向之一,由于在制造产品的过程中,表面缺陷的产生往往是不可避免的,故机器视觉的缺陷检测有较大的市场需求。熟练掌握缺陷检测是视觉工程师的必要技能。  在工业视觉检测当中,常见的工业视觉检测表面缺陷有划伤、划痕、辊印、凹坑、粗糙、波纹等外观缺陷,此外还有像一些非金属产品表面的夹杂、破损、污点,以及纸张表面的色差、压痕等。  相比于人工检测,基于机器视觉的检测有如下优点:①能24小时不间断工作②检测速度快,准确率高③检测精度高④不受外界因素的干扰,检测_工业视觉检测开发blob

openGauss洗冤录 之 copy from_copy to or from a file is prohibited for security -程序员宅基地

文章浏览阅读634次。对于copy功能PostgreSQL从9.2.4到16devel是否有过优化?或者openGauss是否持续合并或优化PostgreSQL的copy功能,这方面我没有去考证过。单纯从测试结果上看,openGauss的copy性能要略逊于PostgreSQL。当然,可能是我水平有限,所以希望各位openGauss的专家、老师集思广益,还openGauss一个真实的COPY FROM文件导入性能。(大家可以回复优化方案,我这边去做验证)_copy to or from a file is prohibited for security concerns

基于springboot的体育馆使用预约系统_基于springboot的体育馆预约管理系统-程序员宅基地

文章浏览阅读1.1k次,点赞23次,收藏27次。基于springboot的体育馆使用预约系统_基于springboot的体育馆预约管理系统

Spring、SpringBoot常见面试题与答案_spring和springboot的常见面试题-程序员宅基地

文章浏览阅读390次。SpringSpring Bean 的作用域有哪些?它的注册方式有几种?Spring 容器中管理一个或多个 Bean,这些 Bean 的定义表示为 BeanDefinition 对象,具体包含以下重要信息:Bean 的实际实现类;Bean 的引用或者依赖项;Bean 的作用范围;singleton:单例(默认);prototype:原型,每次调用bean都会创建新实例;request:每次http请求都会创建新的bean;session:同一个http session共享一个bean_spring和springboot的常见面试题

openstack认证服务(认证组件)3_openstack 认证服务-程序员宅基地

文章浏览阅读1.9k次。Openstack认证服务(认证组件)3_openstack 认证服务

随便推点

R语言实用案例分析-1_r语言案例分析-程序员宅基地

文章浏览阅读2.2w次,点赞10次,收藏63次。在日常生活和实际应用当中,我们经常会用到统计方面的知识,比如求最大值,求平均值等等。R语言是一门统计学语言,他可以方便的完成统计相关的计算,下面我们就来看一个相关案例。1. 背景最近西安交大大数据专业二班,开设了Java和大数据技术课程,班级人数共100人。2. 需求通过R语言完成该100位同学学号的生成,同时使用R语言模拟生成Java和大数据技术成绩,成绩满分为100,需要满足正_r语言案例分析

Java知识体系总结(2024版),这一次带你搞懂Spring代理创建过程-程序员宅基地

文章浏览阅读639次,点赞11次,收藏26次。虽然我个人也经常自嘲,十年之后要去成为外卖专员,但实际上依靠自身的努力,是能够减少三十五岁之后的焦虑的,毕竟好的架构师并不多。架构师,是我们大部分技术人的职业目标,一名好的架构师来源于机遇(公司)、个人努力(吃得苦、肯钻研)、天分(真的热爱)的三者协作的结果,实践+机遇+努力才能助你成为优秀的架构师。如果你也想成为一名好的架构师,那或许这份Java成长笔记你需要阅读阅读,希望能够对你的职业发展有所帮助。一个人可以走的很快,但一群人才能走的更远。

车辆动力学及在Unity、UE4中的实现_unity 车辆动力学模型-程序员宅基地

文章浏览阅读3.9k次,点赞9次,收藏53次。受力分析直线行驶时的车轮受力如下:水平方向上,所受合力为:F=Ft+Fw+FfF=F_t+F_w+F_fF=Ft​+Fw​+Ff​其中,FtF_tFt​为牵引力,FwF_wFw​为空气阻力,FfF_fFf​为滚动阻力,下面我们将逐个介绍。驱动力先来说扭矩,扭矩是使物体发生旋转的一个特殊力矩,等于力和力臂的乘积,单位为N∙mN∙mN∙m:设驱动轴的扭矩为TtT_tTt​,车轮半径为rrr,那么牵引力:Ft=Tt⁄rF_t=T_t⁄rFt​=Tt​⁄r如何求得驱动轴扭矩TtT_tTt​呢?_unity 车辆动力学模型

在vue中使用web3.js开发以太坊dapp_如何使用web3和vue.js创建你的第一个以太坊dapp-程序员宅基地

文章浏览阅读1.8w次,点赞2次,收藏65次。前端如何使用以太坊智能合约方法这里讲的是前端与MetaMask之间的交互文中涉及到的官方文档web3.js 1.0中文手册MetaMask官方文档web3.js文件链接:https://pan.baidu.com/s/1_mPT-ZcQ9GU_U1CVhBKpLA提取码:cbey//在vue中安装web3npm install web3 --save//在main.js引入import Web3 from 'web3'Vue.prototype.Web3 = Web3一、唤起Me_如何使用web3和vue.js创建你的第一个以太坊dapp

Python:太阳花的绘制_绘制一个直径随机的太阳花-程序员宅基地

文章浏览阅读701次。绘制一个太阳花的图形。from turtle import *color("red",'yellow')begin_fill()while True: forward(200) left(170) if abs(pos())<1: breakend_fill()done()_绘制一个直径随机的太阳花

Linux常用命令(1)_code=exited, status=0/success-程序员宅基地

文章浏览阅读348次。Linux常用命令(1)切换到ROOT用户(su - root)[liu@localhost ~]$ su - root密码:[root@localhost ~]查看IP地址(ifconfig)[root@localhost ~]# ifconfigens33: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500 inet 192.168.100.47 netmask 255.255.255.0 broad_code=exited, status=0/success

推荐文章

热门文章

相关标签