Windows 11
微软最新的操作系统

Whisper 是一种自动语音识别 (ASR) 系统

Whisper 是一种自动语音识别 (ASR) 系统,根据从网络收集的 680,000 小时的多语言和多任务监督数据进行训练。我们表明,使用如此庞大而多样化的数据集可以提高对口音、背景噪音和技术语言的鲁棒性。此外,它可以转录多种语言,以及从这些语言翻译成英语。我们正在开源模型和推理代码,作为构建有用应用程序和进一步研究健壮语音处理的基础。

模型体系结构的 ASR 摘要

Whisper架构是一种简单的端到端方法,作为编码器-解码器变压器实现。输入音频被分成 30 秒的块,转换为 log-Mel 频谱图,然后传递到编码器中。训练解码器来预测相应的文本标题,并与指示单个模型执行语言识别、短语级时间戳、多语言语音听录和英语语音翻译等任务的特殊标记混合在一起。

详细说明如何训练 ASR 模型的图表

其他现有方法经常使用更小、更紧密配对的音频-文本训练数据集,1 2,3或使用广泛但无监督的音频预训练。4,5,6由于Whisper是在庞大而多样化的数据集上进行训练的,并且没有针对任何特定数据集进行微调,因此它无法击败专门研究LibriSpeech性能的模型,LibriSpeech性能是语音识别领域著名的竞争基准。然而,当我们在许多不同的数据集中测量Whisper的零镜头性能时,我们发现它比这些模型更强大,误差少50%。

Whisper的音频数据集中约有三分之一是非英语的,它的任务是用原始语言转录或翻译成英语。我们发现这种方法在学习语音到文本翻译方面特别有效,并且在CoVoST2到英语翻译零镜头上优于监督SOTA。

我们希望Whisper的高精度和易用性将允许开发人员将语音界面添加到更广泛的应用程序中。

赞(0) 打赏
未经允许不得转载:Win 11系统之家 » Whisper 是一种自动语音识别 (ASR) 系统

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏