46行代码实现免费语音识别，用过的人当场拍桌子大叫一声“好”！_网站优化分享

您的位置：上海毫米网络优化公司 > 网站优化分享 >

相关推荐recommended

46行代码实现免费语音识别，用过的人当场拍桌子大叫一声“好”！

作者：mmseoamin日期：2024-02-02

1.在做一些语音项目的时候，每次都要调用API，百度的或者是科大讯飞的，要钱贵不说，识别效果还差的要命，此事苦其久也。

46行代码实现免费语音识别，用过的人当场拍桌子大叫一声“好”！,在这里插入图片描述,第1张

2.使用python3.8及以上的编译器。

46行代码实现免费语音识别，用过的人当场拍桌子大叫一声“好”！,在这里插入图片描述,第2张

3.安装pyaudio库包，该库包是用来进行实时语音录制和保存的。使用以下命令：

pip install pyaudio -i https://pypi.tuna.tsinghua.edu.cn/simple

46行代码实现免费语音识别，用过的人当场拍桌子大叫一声“好”！,在这里插入图片描述,第3张

4.安装whisper库包，该库包是用来进行语音转文字识别。使用以下命令：

pip install openai-whisper -i https://pypi.tuna.tsinghua.edu.cn/simple

46行代码实现免费语音识别，用过的人当场拍桌子大叫一声“好”！,在这里插入图片描述,第4张

5.安装和配置ffmpeg软件，后面配合录音使用，安装配置好后检测如下。

46行代码实现免费语音识别，用过的人当场拍桌子大叫一声“好”！,在这里插入图片描述,第5张

6.新建一个.py文件，比如"语音识别.py"文件。

46行代码实现免费语音识别，用过的人当场拍桌子大叫一声“好”！,在这里插入图片描述,第6张

7.准备编写代码，首先导入以下四个库包。

import whisper
import zhconv
import wave  # 使用wave库可读、写wav类型的音频文件
import pyaudio  # 使用pyaudio库可以进行录音，播放，生成wav文件

46行代码实现免费语音识别，用过的人当场拍桌子大叫一声“好”！,在这里插入图片描述,第7张

8.定义一个录音函数，同时在录音函数中定义数据流块。

def record(time):  # 录音程序
    # 定义数据流块
    CHUNK = 1024  # 音频帧率（也就是每次读取的数据是多少，默认1024）
    FORMAT = pyaudio.paInt16  # 采样时生成wav文件正常格式
    CHANNELS = 1  # 音轨数（每条音轨定义了该条音轨的属性,如音轨的音色、音色库、通道数、输入/输出端口、音量等。可以多个音轨，不唯一）
    RATE = 16000  # 采样率（即每秒采样多少数据）
    RECORD_SECONDS = time  # 录音时间
    WAVE_OUTPUT_FILENAME = "./output.wav"  # 保存音频路径
    p = pyaudio.PyAudio()  # 创建PyAudio对象
    stream = p.open(format=FORMAT,  # 采样生成wav文件的正常格式
                    channels=CHANNELS,  # 音轨数
                    rate=RATE,  # 采样率
                    input=True,  # Ture代表这是一条输入流，False代表这不是输入流
                    frames_per_buffer=CHUNK)  # 每个缓冲多少帧
    print("* recording")  # 开始录音标志
    frames = []  # 定义frames为一个空列表

46行代码实现免费语音识别，用过的人当场拍桌子大叫一声“好”！,在这里插入图片描述,第8张

9.计算声音数据，准备保存实时声音数据到列表。

    for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):  # 计算要读多少次，每秒的采样率/每次读多少数据*录音时间=需要读多少次
        data = stream.read(CHUNK)  # 每次读chunk个数据
        frames.append(data)  # 将读出的数据保存到列表中
    print("* done recording")  # 结束录音标志
    stream.stop_stream()  # 停止输入流
    stream.close()  # 关闭输入流
    p.terminate()  # 终止pyaudio

46行代码实现免费语音识别，用过的人当场拍桌子大叫一声“好”！,在这里插入图片描述,第9张

10.将保存在列表中的声音数据以二进制的形式保存在一个wav声音文件中。

wf = wave.open(WAVE_OUTPUT_FILENAME, 'wb')  # 以’wb‘二进制流写的方式打开一个文件
    wf.setnchannels(CHANNELS)  # 设置音轨数
    wf.setsampwidth(p.get_sample_size(FORMAT))  # 设置采样点数据的格式，和FOMART保持一致
    wf.setframerate(RATE)  # 设置采样率与RATE要一致
    wf.writeframes(b''.join(frames))  # 将声音数据写入文件
    wf.close()  # 数据流保存完，关闭文件

46行代码实现免费语音识别，用过的人当场拍桌子大叫一声“好”！,在这里插入图片描述,第10张

11.继续定义一个main函数，该函数的功能是加载base语音模型（提示：该语音模型会自动下载），将实时语音以中文形式翻译成文字输出。

def main():
    model = whisper.load_model("base")
    record(5)  # 定义录音时间，单位/s
    result = model.transcribe("output.wav", language='Chinese', fp16=False)
    s = result["text"]
    s1 = zhconv.convert(s, 'zh-cn')
    print(s1)

46行代码实现免费语音识别，用过的人当场拍桌子大叫一声“好”！,在这里插入图片描述,第11张

12.最后，写一个运行入口，运行main函数。

if __name__ == '__main__':
    main()

46行代码实现免费语音识别，用过的人当场拍桌子大叫一声“好”！,在这里插入图片描述,第12张

13.运行“语音识别.py”文件，

46行代码实现免费语音识别，用过的人当场拍桌子大叫一声“好”！,在这里插入图片描述,第13张

14.运行后，说出“晚上睡不着怎么办”，查看效果。

46行代码实现免费语音识别，用过的人当场拍桌子大叫一声“好”！,在这里插入图片描述,第14张

15.完整代码展示

import whisper
import zhconv
import wave  # 使用wave库可读、写wav类型的音频文件
import pyaudio  # 使用pyaudio库可以进行录音，播放，生成wav文件
def record(time):  # 录音程序
    # 定义数据流块
    CHUNK = 1024  # 音频帧率（也就是每次读取的数据是多少，默认1024）
    FORMAT = pyaudio.paInt16  # 采样时生成wav文件正常格式
    CHANNELS = 1  # 音轨数（每条音轨定义了该条音轨的属性,如音轨的音色、音色库、通道数、输入/输出端口、音量等。可以多个音轨，不唯一）
    RATE = 16000  # 采样率（即每秒采样多少数据）
    RECORD_SECONDS = time  # 录音时间
    WAVE_OUTPUT_FILENAME = "./output.wav"  # 保存音频路径
    p = pyaudio.PyAudio()  # 创建PyAudio对象
    stream = p.open(format=FORMAT,  # 采样生成wav文件的正常格式
                    channels=CHANNELS,  # 音轨数
                    rate=RATE,  # 采样率
                    input=True,  # Ture代表这是一条输入流，False代表这不是输入流
                    frames_per_buffer=CHUNK)  # 每个缓冲多少帧
    print("* recording")  # 开始录音标志
    frames = []  # 定义frames为一个空列表
    for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):  # 计算要读多少次，每秒的采样率/每次读多少数据*录音时间=需要读多少次
        data = stream.read(CHUNK)  # 每次读chunk个数据
        frames.append(data)  # 将读出的数据保存到列表中
    print("* done recording")  # 结束录音标志
    stream.stop_stream()  # 停止输入流
    stream.close()  # 关闭输入流
    p.terminate()  # 终止pyaudio
    wf = wave.open(WAVE_OUTPUT_FILENAME, 'wb')  # 以’wb‘二进制流写的方式打开一个文件
    wf.setnchannels(CHANNELS)  # 设置音轨数
    wf.setsampwidth(p.get_sample_size(FORMAT))  # 设置采样点数据的格式，和FOMART保持一致
    wf.setframerate(RATE)  # 设置采样率与RATE要一致
    wf.writeframes(b''.join(frames))  # 将声音数据写入文件
    wf.close()  # 数据流保存完，关闭文件
def main():
    model = whisper.load_model("base")
    record(5)  # 定义录音时间，单位/s
    result = model.transcribe("output.wav", language='Chinese', fp16=False)
    s = result["text"]
    s1 = zhconv.convert(s, 'zh-cn')
    print(s1)
if __name__ == '__main__':
    main()

46行代码实现免费语音识别，用过的人当场拍桌子大叫一声“好”！,在这里插入图片描述,第15张

16.最后，运行成功的同学记得一键三连！有问题评论区见！

46行代码实现免费语音识别，用过的人当场拍桌子大叫一声“好”！,在这里插入图片描述,第16张

做网站建设哪家好互联网保险平台排名 html网页设计简单实例域名备案多少钱网页制作费用鲜花网络营销推广方案

上一篇：Python Spider学习笔记（一）：爬取B站视频基本信息

下一篇：RGB 与 BGR颜色深度、像素和字节之间的关系