Qu’est-ce que le modèle Whisper ?

2025-05-23

Le modèle Whisper est un modèle de reconnaissance vocale à partir d’OpenAI que vous pouvez utiliser pour transcrire ou traduire des fichiers audio. Le modèle est formé sur un grand jeu de données d’audio et de texte anglais.

Le modèle est optimisé pour la transcription de fichiers audio qui contiennent de la parole en anglais.
Le modèle peut également être utilisé pour traduire des fichiers audio qui contiennent la parole dans d’autres langues. La sortie de la transcription est du texte anglais.

Les modèles Whisper sont disponibles via Azure OpenAI dans Azure AI Foundry Models ou via Azure AI Speech. Les fonctionnalités diffèrent pour ces offres. Dans Azure AI Speech (transcription par lots), Whisper n’est qu’un des modèles de reconnaissance vocale que vous pouvez utiliser.

Vous pouvez demander :

Le modèle Whisper est-il un bon choix pour mon scénario ou un modèle Azure AI Speech est-il meilleur ? Quelles sont les comparaisons d’API entre les deux types de modèles ?
Si je souhaite utiliser le modèle Chuchoter, dois-je l’utiliser via Azure OpenAI ou via Azure AI Speech ? Quels scénarios peuvent me guider pour utiliser l’un ou l’autre ?

Modèle Whisper ou modèles Azure AI Speech

Le modèle Whisper ou les modèles Azure AI Speech sont appropriés en fonction de vos scénarios. Si vous décidez d’utiliser Azure AI Speech, vous pouvez choisir parmi plusieurs modèles, y compris le modèle Whisper. Le tableau suivant compare les options et vous fait des recommandations relatives à l’emplacement de départ.

Scénario	Modèle Whisper	Modèles Azure AI Speech
Transcriptions, légendes et sous-titres en temps réel pour l’audio et la vidéo.	Non disponible	Recommandé
Transcriptions, légendes et sous-titres pour l’audio et la vidéo préenregistrés.	Le modèle Whisper via Azure OpenAI est recommandé pour un traitement rapide de fichiers audio individuels. Le modèle Whisper via Azure AI Speech (transcription par lots) est recommandé pour le traitement par lots de fichiers volumineux. Pour plus d’informations, consultez le modèle Whisper via la transcription par lots d'Azure AI Speech ou via Azure OpenAI.	Recommandé pour le traitement par lots de fichiers volumineux, de diarisation et d’horodatages au niveau des mots.
Transcription d’enregistrements d’appels téléphoniques et analyses, tels que le résumé des appels, le sentiment, les sujets clés et les insights personnalisés.	Disponible	Recommandé
Transcription et analytique en temps réel pour aider les agents de centre d’appels à répondre aux questions des clients.	Non disponible	Recommandé
Transcription des enregistrements de réunion et analyses, tels que le résumé de la réunion, les chapitres de réunion et l’extraction d’éléments d’action.	Disponible	Recommandé
Entrée de texte en temps réel et génération de documents via la dictée vocale.	Non disponible	Recommandé
Agent vocal du centre de contacts : routage des appels et réponse vocale interactive pour les centres d’appels.	Disponible	Recommandé
Assistant vocal : assistant vocal spécifique à l’application pour les scénarios de décodeur, d’application mobile, de véhicule et autres.	Disponible	Recommandé
Évaluation de la prononciation : évaluer la prononciation de la voix d’un orateur.	Non disponible	Recommandé
Traduire de l’audio en direct d’une langue vers une autre.	Non disponible	Recommandé via l’API de traduction vocale.
Traduire de l’audio préenregistré d’autres langues vers l’anglais.	Recommandé	Disponible également via l’API de traduction vocale.
Traduire de l’audio préenregistré dans des langues autres que l’anglais.	Non disponible	Recommandé via l’API de traduction vocale.

Modèle Whisper via Azure AI Speech ou via Azure OpenAI ?

Si vous décidez d’utiliser le modèle Whisper, vous avez deux options. Vous pouvez choisir d’utiliser le modèle Whisper via Azure OpenAI ou via Azure AI Speech (transcription par lots). Dans les deux cas, la lisibilité du texte transcrit est la même.

Le modèle Whisper via Azure OpenAI pourrait être le meilleur choix pour :

Transcrire rapidement des fichiers audio un par un.
Traduire l’audio d’autres langues en anglais. Vous pouvez entrer de l’audio en plusieurs langues et la sortie est en anglais.
Fournissez une instruction au modèle pour orienter la sortie.
Formats de fichiers pris en charge : mp3, mp4, mpweg, mpga, m4a, wav et webm.
Seul le caractère ASCII pris en charge pour le nom de fichier.

Le modèle Whisper via la transcription par lots Azure AI Speech peut être la meilleure option pour :

Transcrire des fichiers supérieurs à 25 Mo (jusqu’à 1 Go). La taille limite de fichier pour le modèle Whisper d’Azure OpenAI est de 25 Mo.
transcrire de grands lots de fichiers audio ;
Diariser pour faire la distinction entre les différents intervenants participant à la conversation. Le service Speech fournit des informations sur l’orateur qui parlait une partie particulière de la parole transcrite. Le modèle Whisper via Azure OpenAI ne prend pas en charge la diarisation.
Horodatages de niveau des mots
les formats de fichiers pris en charge : mp3, wav et ogg.

La prise en charge régionale est une autre considération à prendre en compte.

Le modèle Whisper via Azure OpenAI est disponible dans les régions suivantes : USA Est 2, Inde Sud, Centre Nord, Norvège Est, Suède Centre, Suisse Nord et Europe Ouest.
Le modèle Chuchoter via Azure AI Speech est disponible dans les régions suivantes : Australie Est, USA Est, USA Centre Nord, USA Centre Sud, Asie Sud-Est et Europe Ouest.

Partager via

Qu’est-ce que le modèle Whisper ?

Modèle Whisper ou modèles Azure AI Speech

Modèle Whisper via Azure AI Speech ou via Azure OpenAI ?

Contenu connexe

Commentaires

Ressources supplémentaires