Whisper

Also known as: OpenAI Whisper, Whisper ASR

An open-source automatic speech recognition (ASR) model released by OpenAI in 2022, trained on 680,000 hours of multilingual and multitask supervised audio data. Whisper supports transcription in dozens of languages, translation into English, language identification, and voice-activity detection, and performs robustly on noisy real-world audio. In accessibility research, Whisper is widely used as the transcription backbone for automatically generating captions, timestamping speech at the word level, and feeding downstream pipelines such as speech-emotion recognition or expressive captioning. Whisper is notable for its permissive MIT licence and its availability in multiple model sizes suitable for real-time or offline use.

Category: machine learning · automatic speech recognition

Related: Automatic Speech Recognition · Caption · Speech Emotion Recognition

Sources

https://openai.com/research/whisper
https://doi.org/10.1145/3772318.3793421