Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Dans ce guide de démarrage rapide, vous essayez la reconnaissance vocale en temps réel dans Microsoft Foundry.
Prérequis
- Un abonnement Azure. Créez-en un gratuitement.
- Un projet de fonderie. Si vous avez besoin de créer un projet, consultez Créer un projet Microsoft Foundry.
Essayer la reconnaissance vocale en temps réel
- Connectez-vous à Microsoft Foundry. Assurez-vous que l'interrupteur New Foundry est activé. Ces étapes font référence à Foundry (nouveau).
- Sélectionnez Générer dans le menu supérieur droit.
- Sélectionnez Modèles dans le volet gauche.
- L'onglet Services IA affiche les modèles Foundry qui peuvent être utilisés prêts à l'emploi dans le portail Foundry. Sélectionnez Azure Speech - Reconnaissance vocale pour ouvrir le terrain de jeux de reconnaissance vocale.
- Utilisez éventuellement la section Paramètres pour modifier la tâche, la langue, la stratégie de profanité et d’autres paramètres. Vous pouvez également ajouter des instructions spéciales pour le LLM.
- Utilisez la section Charger des fichiers pour sélectionner votre fichier audio. Sélectionnez Ensuite Démarrer.
- Affichez la sortie de transcription sous l’onglet Transcription . Affichez éventuellement la sortie de réponse d’API brute sous l’onglet JSON .
- Basculez vers l’onglet Code pour obtenir l’exemple de code permettant d’utiliser la fonctionnalité de reconnaissance vocale dans votre application.
Autres fonctionnalités Foundry (nouvelles)
Les fonctionnalités Speech suivantes sont disponibles dans le portail Foundry (nouveau) :
Documentation de référence | Package (NuGet) | Échantillons supplémentaires sur GitHub
Dans ce guide de démarrage rapide, vous créez et exécutez une application pour reconnaître et transcrire la reconnaissance vocale en temps réel.
Conseil
Pour une transcription rapide des fichiers audio, envisagez d’utiliser l’API de transcription rapide. L’API de transcription rapide prend en charge des fonctionnalités telles que l’identification et la journalisation de la langue.
Pour transcrire des fichiers audio de manière asynchrone, consultez Qu’est-ce que la transcription par lots ?. Si vous ne savez pas quelle solution de reconnaissance vocale est la plus adaptée pour vous, consultez Qu’est-ce que la reconnaissance vocale ?
Prérequis
- Un abonnement Azure. Vous pouvez en créer un gratuitement.
- Créer une ressource AI Services pour Speech dans le portail Azure.
- Obtenez la clé et le point de terminaison de la ressource Speech. Une fois votre ressource Azure Cognitive Service for Speech déployée, sélectionnez Accéder à la ressource pour afficher et gérer les clés.
Configurer l’environnement
Le SDK Speech est disponible sous la forme d’un package NuGet et implémente .NET Standard 2.0. Vous installez le Kit SDK Speech plus loin dans ce guide. Pour toute autre exigence, consultez Installer le Kit de développement logiciel (SDK) Speech.
Définir des variables d’environnement
Vous devez authentifier votre application pour accéder à Foundry Tools. Cet article vous montre comment utiliser des variables d’environnement pour stocker vos informations d’identification. Vous pouvez ensuite accéder aux variables d’environnement depuis votre code pour authentifier votre application. Pour la production, utilisez un moyen plus sécurisé pour stocker vos informations d’identification et y accéder.
Important
Nous vous recommandons d’utiliser l’authentification Microsoft Entra ID avec des identités gérées pour les ressources Azure pour éviter de stocker les identifiants avec vos applications qui s’exécutent dans le cloud.
Utilisez les clés API avec précaution. N’incluez pas la clé API directement dans votre code et ne la diffusez jamais publiquement. Si vous utilisez des clés API, stockez-les en toute sécurité dans Azure Key Vault, faites pivoter les clés régulièrement et limitez l’accès aux Azure Key Vault à l’aide du contrôle d’accès en fonction du rôle et des restrictions d’accès réseau. Pour plus d’informations sur l’utilisation sécurisée des clés API dans vos applications, consultez les API avec Azure Key Vault.
Pour plus d’informations sur la sécurité des services d’INTELLIGENCE artificielle, consultez Demandes d’authentification à Azure AI services.
Pour définir les variables d’environnement de votre clé et point de terminaison de ressource Speech, ouvrez une fenêtre de console et suivez les instructions de votre système d’exploitation et de votre environnement de développement.
- Pour définir la variable d’environnement
SPEECH_KEY, remplacez your-key par l’une des clés de votre ressource. - Pour définir la variable d’environnement
ENDPOINT, remplacez votre point de terminaison par l’un des points de terminaison de votre ressource.
setx SPEECH_KEY your-key
setx ENDPOINT your-endpoint
Remarque
Si vous avez uniquement besoin d'accéder aux variables d'environnement dans la console actuelle, vous pouvez définir la variable d'environnement avec set au lieu de setx.
Après avoir ajouté les variables d'environnement, vous devrez éventuellement redémarrer tous les programmes qui ont besoin de lire les variables d'environnement, y compris la fenêtre de console. Par exemple, si vous utilisez Visual Studio en tant qu'éditeur, redémarrez Visual Studio avant d'exécuter l'exemple.
Reconnaître la voix provenant d’un micro
Conseil
Essayez le Azure Speech dans le Foundry Tools Toolkit pour créer et exécuter facilement des échantillons sur Visual Studio Code.
Effectuez ces étapes pour créer une application console et installer le SDK Speech.
Ouvrez une fenêtre d’invite de commandes dans le dossier où vous souhaitez placer le nouveau projet. Exécutez cette commande pour créer une application console avec l’interface CLI .NET.
dotnet new consoleCette commande crée le fichier Program.cs dans le répertoire de votre projet.
Installez le Kit de développement logiciel (SDK) Speech dans votre nouveau projet avec l’interface CLI .NET.
dotnet add package Microsoft.CognitiveServices.SpeechRemplacez le contenu du fichier Program.cs par le code suivant :
using System; using System.IO; using System.Threading.Tasks; using Microsoft.CognitiveServices.Speech; using Microsoft.CognitiveServices.Speech.Audio; class Program { // This example requires environment variables named "SPEECH_KEY" and "ENDPOINT" static string speechKey = Environment.GetEnvironmentVariable("SPEECH_KEY"); static string endpoint = Environment.GetEnvironmentVariable("ENDPOINT"); static void OutputSpeechRecognitionResult(SpeechRecognitionResult speechRecognitionResult) { switch (speechRecognitionResult.Reason) { case ResultReason.RecognizedSpeech: Console.WriteLine($"RECOGNIZED: Text={speechRecognitionResult.Text}"); break; case ResultReason.NoMatch: Console.WriteLine($"NOMATCH: Speech could not be recognized."); break; case ResultReason.Canceled: var cancellation = CancellationDetails.FromResult(speechRecognitionResult); Console.WriteLine($"CANCELED: Reason={cancellation.Reason}"); if (cancellation.Reason == CancellationReason.Error) { Console.WriteLine($"CANCELED: ErrorCode={cancellation.ErrorCode}"); Console.WriteLine($"CANCELED: ErrorDetails={cancellation.ErrorDetails}"); Console.WriteLine($"CANCELED: Did you set the speech resource key and endpoint values?"); } break; } } async static Task Main(string[] args) { var speechConfig = SpeechConfig.FromEndpoint(new Uri(endpoint), speechKey); speechConfig.SpeechRecognitionLanguage = "en-US"; using var audioConfig = AudioConfig.FromDefaultMicrophoneInput(); using var speechRecognizer = new SpeechRecognizer(speechConfig, audioConfig); Console.WriteLine("Speak into your microphone."); var speechRecognitionResult = await speechRecognizer.RecognizeOnceAsync(); OutputSpeechRecognitionResult(speechRecognitionResult); } }Pour modifier la langue de la reconnaissance vocale, remplacez
en-USpar une autre langue prise en charge. Par exemple, utilisezes-ESpour l’espagnol (Espagne). Si vous ne spécifiez pas de langue, la valeur par défaut esten-US. Pour plus d’informations sur l’identification de l’une des nombreuses langues qui peuvent être parlées, consultez Identification de la langue.Exécutez votre nouvelle application console pour démarrer la reconnaissance vocale à partir d’un microphone :
dotnet runParlez dans votre microphone lorsque vous y êtes invité. Ce que vous dites doit apparaître sous forme de texte :
Speak into your microphone. RECOGNIZED: Text=I'm excited to try speech to text.
Notes
Voici quelques autres éléments à prendre en compte :
Cet exemple utilise l’opération
RecognizeOnceAsyncpour transcrire les énoncés de jusqu’à 30 secondes ou jusqu’à ce que le silence soit détecté. Pour plus d’informations sur la reconnaissance continue des données audio plus longues, y compris les conversations multilingues, consultez Comment effectuer la reconnaissance vocale.Pour reconnaître la parole à partir d’un fichier audio, utilisez
FromWavFileInputau lieu deFromDefaultMicrophoneInput:using var audioConfig = AudioConfig.FromWavFileInput("YourAudioFile.wav");Pour les fichiers audio compressés tels que les fichiers MP4, installez GStreamer et utilisez
PullAudioInputStreamouPushAudioInputStream. Pour plus d’informations, consultez Utilisation de l’audio d’entrée compressée.
Nettoyer les ressources
Vous pouvez utiliser le portail Azure ou Azure cli (CLI) pour supprimer la ressource Speech que vous avez créée.
Documentation de référence | Package (NuGet) | Échantillons supplémentaires sur GitHub
Dans ce guide de démarrage rapide, vous créez et exécutez une application pour reconnaître et transcrire la reconnaissance vocale en temps réel.
Conseil
Pour une transcription rapide des fichiers audio, envisagez d’utiliser l’API de transcription rapide. L’API de transcription rapide prend en charge des fonctionnalités telles que l’identification et la journalisation de la langue.
Pour transcrire des fichiers audio de manière asynchrone, consultez Qu’est-ce que la transcription par lots ?. Si vous ne savez pas quelle solution de reconnaissance vocale est la plus adaptée pour vous, consultez Qu’est-ce que la reconnaissance vocale ?
Prérequis
- Un abonnement Azure. Vous pouvez en créer un gratuitement.
- Créer une ressource AI Services pour Speech dans le portail Azure.
- Obtenez la clé et le point de terminaison de la ressource Speech. Une fois votre ressource Azure Cognitive Service for Speech déployée, sélectionnez Accéder à la ressource pour afficher et gérer les clés.
Configurer l’environnement
Le SDK Speech est disponible sous la forme d’un package NuGet et implémente .NET Standard 2.0. Vous installez le Kit SDK Speech plus loin dans ce guide. Pour d’autres exigences, consultez Installer le Kit de développement logiciel (SDK) Speech.
Définir des variables d’environnement
Vous devez authentifier votre application pour accéder à Foundry Tools. Cet article vous montre comment utiliser des variables d’environnement pour stocker vos informations d’identification. Vous pouvez ensuite accéder aux variables d’environnement depuis votre code pour authentifier votre application. Pour la production, utilisez un moyen plus sécurisé pour stocker vos informations d’identification et y accéder.
Important
Nous vous recommandons d’utiliser l’authentification Microsoft Entra ID avec des identités gérées pour les ressources Azure pour éviter de stocker les identifiants avec vos applications qui s’exécutent dans le cloud.
Utilisez les clés API avec précaution. N’incluez pas la clé API directement dans votre code et ne la diffusez jamais publiquement. Si vous utilisez des clés API, stockez-les en toute sécurité dans Azure Key Vault, faites pivoter les clés régulièrement et limitez l’accès aux Azure Key Vault à l’aide du contrôle d’accès en fonction du rôle et des restrictions d’accès réseau. Pour plus d’informations sur l’utilisation sécurisée des clés API dans vos applications, consultez les API avec Azure Key Vault.
Pour plus d’informations sur la sécurité des services d’INTELLIGENCE artificielle, consultez Demandes d’authentification à Azure AI services.
Pour définir les variables d’environnement de votre clé et point de terminaison de ressource Speech, ouvrez une fenêtre de console et suivez les instructions de votre système d’exploitation et de votre environnement de développement.
- Pour définir la variable d’environnement
SPEECH_KEY, remplacez your-key par l’une des clés de votre ressource. - Pour définir la variable d’environnement
ENDPOINT, remplacez votre point de terminaison par l’un des points de terminaison de votre ressource.
setx SPEECH_KEY your-key
setx ENDPOINT your-endpoint
Remarque
Si vous avez uniquement besoin d'accéder aux variables d'environnement dans la console actuelle, vous pouvez définir la variable d'environnement avec set au lieu de setx.
Après avoir ajouté les variables d'environnement, vous devrez éventuellement redémarrer tous les programmes qui ont besoin de lire les variables d'environnement, y compris la fenêtre de console. Par exemple, si vous utilisez Visual Studio en tant qu'éditeur, redémarrez Visual Studio avant d'exécuter l'exemple.
Reconnaître la voix provenant d’un micro
Conseil
Essayez le Azure Speech dans le Foundry Tools Toolkit pour créer et exécuter facilement des échantillons sur Visual Studio Code.
Effectuez ces étapes pour créer une application console et installer le SDK Speech.
Créez un projet de console C++ dans Visual Studio Community nommé
SpeechRecognition.Sélectionnez Tools>Nuget Package Manager>Package Manager Console. Dans la console Package Manager, exécutez cette commande :
Install-Package Microsoft.CognitiveServices.SpeechRemplacez le contenu de
SpeechRecognition.cpppar le code suivant :#include <iostream> #include <stdlib.h> #include <speechapi_cxx.h> using namespace Microsoft::CognitiveServices::Speech; using namespace Microsoft::CognitiveServices::Speech::Audio; std::string GetEnvironmentVariable(const char* name); int main() { // This example requires environment variables named "SPEECH_KEY" and "ENDPOINT" auto speechKey = GetEnvironmentVariable("SPEECH_KEY"); auto endpoint = GetEnvironmentVariable("ENDPOINT"); if (std::string(speechKey).empty() || std::string(endpoint).empty()) { std::cout << "Please set both SPEECH_KEY and ENDPOINT environment variables." << std::endl; return -1; } auto speechConfig = SpeechConfig::FromEndpoint(endpoint, speechKey); speechConfig->SetSpeechRecognitionLanguage("en-US"); auto audioConfig = AudioConfig::FromDefaultMicrophoneInput(); auto speechRecognizer = SpeechRecognizer::FromConfig(speechConfig, audioConfig); std::cout << "Speak into your microphone.\n"; auto result = speechRecognizer->RecognizeOnceAsync().get(); if (result->Reason == ResultReason::RecognizedSpeech) { std::cout << "RECOGNIZED: Text=" << result->Text << std::endl; } else if (result->Reason == ResultReason::NoMatch) { std::cout << "NOMATCH: Speech could not be recognized." << std::endl; } else if (result->Reason == ResultReason::Canceled) { auto cancellation = CancellationDetails::FromResult(result); std::cout << "CANCELED: Reason=" << (int)cancellation->Reason << std::endl; if (cancellation->Reason == CancellationReason::Error) { std::cout << "CANCELED: ErrorCode=" << (int)cancellation->ErrorCode << std::endl; std::cout << "CANCELED: ErrorDetails=" << cancellation->ErrorDetails << std::endl; std::cout << "CANCELED: Did you set the speech resource key and endpoint values?" << std::endl; } } } std::string GetEnvironmentVariable(const char* name) { #if defined(_MSC_VER) size_t requiredSize = 0; (void)getenv_s(&requiredSize, nullptr, 0, name); if (requiredSize == 0) { return ""; } auto buffer = std::make_unique<char[]>(requiredSize); (void)getenv_s(&requiredSize, buffer.get(), requiredSize, name); return buffer.get(); #else auto value = getenv(name); return value ? value : ""; #endif }Pour modifier la langue de la reconnaissance vocale, remplacez
en-USpar une autre langue prise en charge. Par exemple, utilisezes-ESpour l’espagnol (Espagne). Si vous ne spécifiez pas de langue, la valeur par défaut esten-US. Pour plus d’informations sur l’identification de l’une des nombreuses langues qui peuvent être parlées, consultez Identification de la langue.Pour démarrer la reconnaissance vocale à partir d’un microphone, générez et exécutez votre nouvelle application console.
Parlez dans votre microphone lorsque vous y êtes invité. Ce que vous dites doit apparaître sous forme de texte :
Speak into your microphone. RECOGNIZED: Text=I'm excited to try speech to text.
Notes
Voici quelques autres éléments à prendre en compte :
Cet exemple utilise l’opération
RecognizeOnceAsyncpour transcrire les énoncés de jusqu’à 30 secondes ou jusqu’à ce que le silence soit détecté. Pour plus d’informations sur la reconnaissance continue des données audio plus longues, y compris les conversations multilingues, consultez Comment effectuer la reconnaissance vocale.Pour reconnaître la parole à partir d’un fichier audio, utilisez
FromWavFileInputau lieu deFromDefaultMicrophoneInput:auto audioConfig = AudioConfig::FromWavFileInput("YourAudioFile.wav");Pour les fichiers audio compressés tels que les fichiers MP4, installez GStreamer et utilisez
PullAudioInputStreamouPushAudioInputStream. Pour plus d’informations, consultez Utilisation de l’audio d’entrée compressée.
Nettoyer les ressources
Vous pouvez utiliser le portail Azure ou Azure cli (CLI) pour supprimer la ressource Speech que vous avez créée.
Documentation de référence | Package (Go) | Exemples supplémentaires sur GitHub
Dans ce guide de démarrage rapide, vous créez et exécutez une application pour reconnaître et transcrire la reconnaissance vocale en temps réel.
Conseil
Pour une transcription rapide des fichiers audio, envisagez d’utiliser l’API de transcription rapide. L’API de transcription rapide prend en charge des fonctionnalités telles que l’identification et la journalisation de la langue.
Pour transcrire des fichiers audio de manière asynchrone, consultez Qu’est-ce que la transcription par lots ?. Si vous ne savez pas quelle solution de reconnaissance vocale est la plus adaptée pour vous, consultez Qu’est-ce que la reconnaissance vocale ?
Prérequis
- Un abonnement Azure. Vous pouvez en créer un gratuitement.
- Créer une ressource AI Services pour Speech dans le portail Azure.
- Obtenez la clé et le point de terminaison de la ressource Speech. Une fois votre ressource Azure Cognitive Service for Speech déployée, sélectionnez Accéder à la ressource pour afficher et gérer les clés.
Configurer l’environnement
Le Kit de développement logiciel (SDK) Speech est disponible en tant que package Go. Vous installez le Kit SDK Speech plus loin dans ce guide. Pour toute autre exigence, consultez Installer le Kit de développement logiciel (SDK) Speech.
Définir des variables d’environnement
Vous devez authentifier votre application pour accéder à Foundry Tools. Cet article vous montre comment utiliser des variables d’environnement pour stocker vos informations d’identification. Vous pouvez ensuite accéder aux variables d’environnement depuis votre code pour authentifier votre application. Pour la production, utilisez un moyen plus sécurisé pour stocker vos informations d’identification et y accéder.
Important
Nous vous recommandons d’utiliser l’authentification Microsoft Entra ID avec des identités gérées pour les ressources Azure pour éviter de stocker les identifiants avec vos applications qui s’exécutent dans le cloud.
Utilisez les clés API avec précaution. N’incluez pas la clé API directement dans votre code et ne la diffusez jamais publiquement. Si vous utilisez des clés API, stockez-les en toute sécurité dans Azure Key Vault, faites pivoter les clés régulièrement et limitez l’accès aux Azure Key Vault à l’aide du contrôle d’accès en fonction du rôle et des restrictions d’accès réseau. Pour plus d’informations sur l’utilisation sécurisée des clés API dans vos applications, consultez les API avec Azure Key Vault.
Pour plus d’informations sur la sécurité des services d’INTELLIGENCE artificielle, consultez Demandes d’authentification à Azure AI services.
Pour définir les variables d’environnement de votre clé et point de terminaison de ressource Speech, ouvrez une fenêtre de console et suivez les instructions de votre système d’exploitation et de votre environnement de développement.
- Pour définir la variable d’environnement
SPEECH_KEY, remplacez your-key par l’une des clés de votre ressource. - Pour définir la variable d’environnement
ENDPOINT, remplacez votre point de terminaison par l’un des points de terminaison de votre ressource.
setx SPEECH_KEY your-key
setx ENDPOINT your-endpoint
Remarque
Si vous avez uniquement besoin d'accéder aux variables d'environnement dans la console actuelle, vous pouvez définir la variable d'environnement avec set au lieu de setx.
Après avoir ajouté les variables d'environnement, vous devrez éventuellement redémarrer tous les programmes qui ont besoin de lire les variables d'environnement, y compris la fenêtre de console. Par exemple, si vous utilisez Visual Studio en tant qu'éditeur, redémarrez Visual Studio avant d'exécuter l'exemple.
Reconnaître la voix provenant d’un micro
Suivez ces étapes pour créer une application Go et installer le Kit de développement logiciel (SDK) Speech.
Ouvrez une fenêtre d’invite de commandes dans le dossier où vous souhaitez placer le nouveau projet. Exécutez cette commande pour créer un fichier Go.
touch main.goRemplacez le contenu de main.go par le code suivant :
package main import ( "fmt" "os" "github.com/Microsoft/cognitive-services-speech-sdk-go/audio" "github.com/Microsoft/cognitive-services-speech-sdk-go/speech" ) func main() { // This example requires environment variables named "SPEECH_KEY" and "ENDPOINT" speechKey := os.Getenv("SPEECH_KEY") endpoint := os.Getenv("ENDPOINT") speechConfig, err := speech.NewSpeechConfigFromEndpointWithSubscription(endpoint, speechKey) if err != nil { fmt.Println("Got an error: ", err) return } defer speechConfig.Close() audioConfig, err := audio.NewAudioConfigFromDefaultMicrophoneInput() if err != nil { fmt.Println("Got an error: ", err) return } defer audioConfig.Close() speechRecognizer, err := speech.NewSpeechRecognizerFromConfig(speechConfig, audioConfig) if err != nil { fmt.Println("Got an error: ", err) return } defer speechRecognizer.Close() fmt.Println("Speak into your microphone.") outcome := <-speechRecognizer.RecognizeOnceAsync() defer outcome.Close() if outcome.Error != nil { fmt.Println("Got an error: ", outcome.Error) return } fmt.Println("RECOGNIZED: Text=", outcome.Result.Text) }Pour modifier la langue de la reconnaissance vocale, remplacez
en-USpar une autre langue prise en charge. Par exemple, utilisezes-ESpour l’espagnol (Espagne). Si vous ne spécifiez pas de langue, la valeur par défaut esten-US. Pour plus d’informations sur l’identification de l’une des nombreuses langues qui peuvent être parlées, consultez Identification de la langue.Exécutez les commandes suivantes pour créer un fichier
go.modqui lie les composants du SDK Speech hébergés sur GitHub :go mod init captioning go get github.com/Microsoft/cognitive-services-speech-sdk-goGénérez le module GO.
go buildExécutez votre nouvelle application console pour démarrer la synthèse vocale avec l’orateur par défaut.
go run main.goParlez dans votre microphone lorsque vous y êtes invité. Ce que vous dites doit apparaître sous forme de texte :
Speak into your microphone. RECOGNIZED: Text=I'm excited to try speech to text.
Notes
Voici quelques autres éléments à prendre en compte :
Cet exemple utilise l’opération
RecognizeOnceAsyncpour transcrire les énoncés de jusqu’à 30 secondes ou jusqu’à ce que le silence soit détecté. Pour plus d’informations sur la reconnaissance continue des données audio plus longues, y compris les conversations multilingues, consultez Comment effectuer la reconnaissance vocale.Pour reconnaître la parole à partir d’un fichier audio, utilisez
NewAudioConfigFromWavFileInputau lieu deNewAudioConfigFromDefaultMicrophoneInput:audioConfig, err := audio.NewAudioConfigFromWavFileInput("YourAudioFile.wav") if err != nil { fmt.Println("Got an error: ", err) return } defer audioConfig.Close()Pour les fichiers audio compressés tels que les fichiers MP4, installez GStreamer et utilisez
PullAudioInputStreamouPushAudioInputStream. Pour plus d’informations, consultez Utilisation de l’audio d’entrée compressée.
Nettoyer les ressources
Vous pouvez utiliser le portail Azure ou Azure cli (CLI) pour supprimer la ressource Speech que vous avez créée.
Documentation de référence | Exemples supplémentaires sur GitHub
Dans ce guide de démarrage rapide, vous créez et exécutez une application pour reconnaître et transcrire la reconnaissance vocale en temps réel.
Conseil
Pour une transcription rapide des fichiers audio, envisagez d’utiliser l’API de transcription rapide. L’API de transcription rapide prend en charge des fonctionnalités telles que l’identification et la journalisation de la langue.
Pour transcrire des fichiers audio de manière asynchrone, consultez Qu’est-ce que la transcription par lots ?. Si vous ne savez pas quelle solution de reconnaissance vocale est la plus adaptée pour vous, consultez Qu’est-ce que la reconnaissance vocale ?
Prérequis
- Un abonnement Azure. Vous pouvez en créer un gratuitement.
- Créer une ressource AI Services pour Speech dans le portail Azure.
- Obtenez la clé et le point de terminaison de la ressource Speech. Une fois votre ressource Azure Cognitive Service for Speech déployée, sélectionnez Accéder à la ressource pour afficher et gérer les clés.
Configurer l’environnement
Pour configurer votre environnement, installez le SDK Speech. L’exemple de ce guide de démarrage rapide fonctionne avec le runtime Java.
Installez Apache Maven. Exécutez ensuite
mvn -vpour confirmer la réussite de l’installation.Créez un fichier
pom.xmlà la racine de votre projet, puis copiez-y le code suivant :<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion> <groupId>com.microsoft.cognitiveservices.speech.samples</groupId> <artifactId>quickstart-eclipse</artifactId> <version>1.0.0-SNAPSHOT</version> <build> <sourceDirectory>src</sourceDirectory> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <version>3.7.0</version> <configuration> <source>1.8</source> <target>1.8</target> </configuration> </plugin> </plugins> </build> <dependencies> <dependency> <groupId>com.microsoft.cognitiveservices.speech</groupId> <artifactId>client-sdk</artifactId> <version>1.43.0</version> </dependency> </dependencies> </project>Installez le SDK Speech et les dépendances.
mvn clean dependency:copy-dependencies
Définir des variables d’environnement
Vous devez authentifier votre application pour accéder à Foundry Tools. Cet article vous montre comment utiliser des variables d’environnement pour stocker vos informations d’identification. Vous pouvez ensuite accéder aux variables d’environnement depuis votre code pour authentifier votre application. Pour la production, utilisez un moyen plus sécurisé pour stocker vos informations d’identification et y accéder.
Important
Nous vous recommandons d’utiliser l’authentification Microsoft Entra ID avec des identités gérées pour les ressources Azure pour éviter de stocker les identifiants avec vos applications qui s’exécutent dans le cloud.
Utilisez les clés API avec précaution. N’incluez pas la clé API directement dans votre code et ne la diffusez jamais publiquement. Si vous utilisez des clés API, stockez-les en toute sécurité dans Azure Key Vault, faites pivoter les clés régulièrement et limitez l’accès aux Azure Key Vault à l’aide du contrôle d’accès en fonction du rôle et des restrictions d’accès réseau. Pour plus d’informations sur l’utilisation sécurisée des clés API dans vos applications, consultez les API avec Azure Key Vault.
Pour plus d’informations sur la sécurité des services d’INTELLIGENCE artificielle, consultez Demandes d’authentification à Azure AI services.
Pour définir les variables d’environnement de votre clé et point de terminaison de ressource Speech, ouvrez une fenêtre de console et suivez les instructions de votre système d’exploitation et de votre environnement de développement.
- Pour définir la variable d’environnement
SPEECH_KEY, remplacez your-key par l’une des clés de votre ressource. - Pour définir la variable d’environnement
ENDPOINT, remplacez votre point de terminaison par l’un des points de terminaison de votre ressource.
setx SPEECH_KEY your-key
setx ENDPOINT your-endpoint
Remarque
Si vous avez uniquement besoin d'accéder aux variables d'environnement dans la console actuelle, vous pouvez définir la variable d'environnement avec set au lieu de setx.
Après avoir ajouté les variables d'environnement, vous devrez éventuellement redémarrer tous les programmes qui ont besoin de lire les variables d'environnement, y compris la fenêtre de console. Par exemple, si vous utilisez Visual Studio en tant qu'éditeur, redémarrez Visual Studio avant d'exécuter l'exemple.
Reconnaître la voix provenant d’un micro
Suivez ces étapes pour créer une application console pour la reconnaissance vocale.
Créez un fichier nommé SpeechRecognition.java dans le même répertoire racine du projet.
Copiez le code suivant dans SpeechRecognition.java :
import com.microsoft.cognitiveservices.speech.*; import com.microsoft.cognitiveservices.speech.audio.AudioConfig; import java.net.URI; import java.net.URISyntaxException; import java.util.concurrent.ExecutionException; import java.util.concurrent.Future; public class SpeechRecognition { // This example requires environment variables named "SPEECH_KEY" and "ENDPOINT" private static String speechKey = System.getenv("SPEECH_KEY"); private static String endpoint = System.getenv("ENDPOINT"); public static void main(String[] args) throws InterruptedException, ExecutionException, URISyntaxException { SpeechConfig speechConfig = SpeechConfig.fromEndpoint(new URI(endpoint), speechKey); speechConfig.setSpeechRecognitionLanguage("en-US"); recognizeFromMicrophone(speechConfig); } public static void recognizeFromMicrophone(SpeechConfig speechConfig) throws InterruptedException, ExecutionException { AudioConfig audioConfig = AudioConfig.fromDefaultMicrophoneInput(); SpeechRecognizer speechRecognizer = new SpeechRecognizer(speechConfig, audioConfig); System.out.println("Speak into your microphone."); Future<SpeechRecognitionResult> task = speechRecognizer.recognizeOnceAsync(); SpeechRecognitionResult speechRecognitionResult = task.get(); if (speechRecognitionResult.getReason() == ResultReason.RecognizedSpeech) { System.out.println("RECOGNIZED: Text=" + speechRecognitionResult.getText()); } else if (speechRecognitionResult.getReason() == ResultReason.NoMatch) { System.out.println("NOMATCH: Speech could not be recognized."); } else if (speechRecognitionResult.getReason() == ResultReason.Canceled) { CancellationDetails cancellation = CancellationDetails.fromResult(speechRecognitionResult); System.out.println("CANCELED: Reason=" + cancellation.getReason()); if (cancellation.getReason() == CancellationReason.Error) { System.out.println("CANCELED: ErrorCode=" + cancellation.getErrorCode()); System.out.println("CANCELED: ErrorDetails=" + cancellation.getErrorDetails()); System.out.println("CANCELED: Did you set the speech resource key and endpoint values?"); } } System.exit(0); } }Pour modifier la langue de la reconnaissance vocale, remplacez
en-USpar une autre langue prise en charge. Par exemple, utilisezes-ESpour l’espagnol (Espagne). Si vous ne spécifiez pas de langue, la valeur par défaut esten-US. Pour plus d’informations sur l’identification de l’une des nombreuses langues qui peuvent être parlées, consultez Identification de la langue.Exécutez votre nouvelle application console pour démarrer la reconnaissance vocale à partir d’un microphone :
javac SpeechRecognition.java -cp ".;target\dependency\*" java -cp ".;target\dependency\*" SpeechRecognitionParlez dans votre microphone lorsque vous y êtes invité. Ce que vous dites doit apparaître sous forme de texte :
Speak into your microphone. RECOGNIZED: Text=I'm excited to try speech to text.
Notes
Voici quelques autres éléments à prendre en compte :
Cet exemple utilise l’opération
RecognizeOnceAsyncpour transcrire les énoncés de jusqu’à 30 secondes ou jusqu’à ce que le silence soit détecté. Pour plus d’informations sur la reconnaissance continue des données audio plus longues, y compris les conversations multilingues, consultez Comment effectuer la reconnaissance vocale.Pour reconnaître la parole à partir d’un fichier audio, utilisez
fromWavFileInputau lieu defromDefaultMicrophoneInput:AudioConfig audioConfig = AudioConfig.fromWavFileInput("YourAudioFile.wav");Pour les fichiers audio compressés tels que les fichiers MP4, installez GStreamer et utilisez
PullAudioInputStreamouPushAudioInputStream. Pour plus d’informations, consultez Utilisation de l’audio d’entrée compressée.
Nettoyer les ressources
Vous pouvez utiliser le portail Azure ou Azure cli (CLI) pour supprimer la ressource Speech que vous avez créée.
Documentation de Référence | Package (npm) | Exemples supplémentaires sur GitHub | Code source de la bibliothèque
Dans ce guide de démarrage rapide, vous créez et exécutez une application pour reconnaître et transcrire la reconnaissance vocale en temps réel.
Conseil
Pour une transcription rapide des fichiers audio, envisagez d’utiliser l’API de transcription rapide. L’API de transcription rapide prend en charge des fonctionnalités telles que l’identification et la journalisation de la langue.
Pour transcrire des fichiers audio de manière asynchrone, consultez Qu’est-ce que la transcription par lots ?. Si vous ne savez pas quelle solution de reconnaissance vocale est la plus adaptée pour vous, consultez Qu’est-ce que la reconnaissance vocale ?
Prérequis
- Un abonnement Azure. Vous pouvez en créer un gratuitement.
- Créer une ressource Fonderie pour Speech dans le portail Azure.
- Obtenez la clé de ressource et la région Speech. Une fois votre ressource Azure Cognitive Service for Speech déployée, sélectionnez Accéder à la ressource pour afficher et gérer les clés.
Vous avez également besoin d’un fichier audio .wav sur votre ordinateur local. Vous pouvez utiliser votre propre fichier .wav (jusqu’à 30 secondes) ou télécharger l’exemple de fichier https://crbn.us/whatstheweatherlike.wav.
Configuration
Créez un dossier
transcription-quickstartet accédez au dossier de démarrage rapide avec la commande suivante :mkdir transcription-quickstart && cd transcription-quickstartCréez le
package.jsonavec la commande suivante :npm init -yInstallez le Kit de développement logiciel (SDK) Speech pour JavaScript avec :
npm install microsoft-cognitiveservices-speech-sdk
Récupérer des informations sur les ressources
Vous devez authentifier votre application pour accéder à Foundry Tools. Cet article vous montre comment utiliser des variables d’environnement pour stocker vos informations d’identification. Vous pouvez ensuite accéder aux variables d’environnement depuis votre code pour authentifier votre application. Pour la production, utilisez un moyen plus sécurisé pour stocker vos informations d’identification et y accéder.
Important
Nous vous recommandons d’utiliser l’authentification Microsoft Entra ID avec des identités gérées pour les ressources Azure pour éviter de stocker les identifiants avec vos applications qui s’exécutent dans le cloud.
Utilisez les clés API avec précaution. N’incluez pas la clé API directement dans votre code et ne la diffusez jamais publiquement. Si vous utilisez des clés API, stockez-les en toute sécurité dans Azure Key Vault, faites pivoter les clés régulièrement et limitez l’accès aux Azure Key Vault à l’aide du contrôle d’accès en fonction du rôle et des restrictions d’accès réseau. Pour plus d’informations sur l’utilisation sécurisée des clés API dans vos applications, consultez les API avec Azure Key Vault.
Pour plus d’informations sur la sécurité des services d’INTELLIGENCE artificielle, consultez Demandes d’authentification à Azure AI services.
Pour définir les variables d'environnement de votre clé de ressource Speech et de votre région, ouvrez une fenêtre de console et suivez les instructions de votre système d'exploitation et de votre environnement de développement.
- Pour définir la variable d’environnement
SPEECH_KEY, remplacez your-key par l’une des clés de votre ressource. - Pour définir la variable d’environnement
SPEECH_REGION, remplacez your-region par l’une des régions de votre ressource. - Pour définir la variable d’environnement
ENDPOINT, remplacezyour-endpointpar le point de terminaison réel de votre ressource Speech.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint
Remarque
Si vous avez uniquement besoin d'accéder aux variables d'environnement dans la console actuelle, vous pouvez définir la variable d'environnement avec set au lieu de setx.
Après avoir ajouté les variables d'environnement, vous devrez éventuellement redémarrer tous les programmes qui ont besoin de lire les variables d'environnement, y compris la fenêtre de console. Par exemple, si vous utilisez Visual Studio en tant qu'éditeur, redémarrez Visual Studio avant d'exécuter l'exemple.
Utiliser la reconnaissance vocale à partir d’un fichier
Pour transcrire la voix à partir d’un fichier :
Créez un fichier nommé transcription.js avec le contenu suivant :
import { readFileSync, createReadStream } from "fs"; import { SpeechConfig, AudioConfig, ConversationTranscriber, AudioInputStream } from "microsoft-cognitiveservices-speech-sdk"; // This example requires environment variables named "ENDPOINT" and "SPEECH_KEY" const speechConfig = SpeechConfig.fromEndpoint(new URL(process.env.ENDPOINT), process.env.SPEECH_KEY); function fromFile() { const filename = "katiesteve.wav"; const audioConfig = AudioConfig.fromWavFileInput(readFileSync(filename)); const conversationTranscriber = new ConversationTranscriber(speechConfig, audioConfig); const pushStream = AudioInputStream.createPushStream(); createReadStream(filename).on('data', function (chunk) { pushStream.write(chunk.slice()); }).on('end', function () { pushStream.close(); }); console.log("Transcribing from: " + filename); conversationTranscriber.sessionStarted = function (s, e) { console.log("SessionStarted event"); console.log("SessionId:" + e.sessionId); }; conversationTranscriber.sessionStopped = function (s, e) { console.log("SessionStopped event"); console.log("SessionId:" + e.sessionId); conversationTranscriber.stopTranscribingAsync(); }; conversationTranscriber.canceled = function (s, e) { console.log("Canceled event"); console.log(e.errorDetails); conversationTranscriber.stopTranscribingAsync(); }; conversationTranscriber.transcribed = function (s, e) { console.log("TRANSCRIBED: Text=" + e.result.text + " Speaker ID=" + e.result.speakerId); }; // Start conversation transcription conversationTranscriber.startTranscribingAsync(function () { }, function (err) { console.trace("err - starting transcription: " + err); }); } fromFile();Dans transcription.js, remplacez YourAudioFile.wav par votre propre fichier .wav . Cet exemple reconnaît uniquement la voix à partir d’un fichier .wav. Pour plus d’informations sur d’autres formats audio, consultez Utilisation de l’audio d’entrée compressée. Cet exemple prend en charge jusqu’à 30 secondes d’audio.
Pour modifier la langue de la reconnaissance vocale, remplacez
en-USpar une autre langue prise en charge. Par exemple, utilisezes-ESpour l’espagnol (Espagne). Si vous ne spécifiez pas de langue, la valeur par défaut esten-US. Pour plus d’informations sur l’identification de l’une des nombreuses langues qui peuvent être parlées, consultez Identification de la langue.Exécutez votre nouvelle application console pour démarrer la reconnaissance vocale à partir d’un fichier :
node transcription.js
Attendez quelques instants pour obtenir une réponse.
Output
La parole du fichier audio doit être générée sous forme de texte :
RECOGNIZED: Text=I'm excited to try speech to text.
Notes
Cet exemple utilise l’opération recognizeOnceAsync pour transcrire les énoncés de jusqu’à 30 secondes ou jusqu’à ce que le silence soit détecté. Pour plus d’informations sur la reconnaissance continue des données audio plus longues, y compris les conversations multilingues, consultez Comment effectuer la reconnaissance vocale.
Remarque
La reconnaissance de la parole à partir d’un microphone n’est pas prise en charge dans Node.js. Elle est prise en charge uniquement dans un environnement JavaScript basé sur un navigateur. Pour plus d’informations, consultez l’exemple React et la implementation de la reconnaissance vocale à partir d’un microphone sur GitHub.
L’exemple React présente les modèles de conception pour l’échange et la gestion des jetons d’authentification. Il montre également la capture de l’audio à partir d’un microphone ou d’un fichier pour les conversions de parole en texte.
Nettoyer les ressources
Vous pouvez utiliser le portail Azure ou Azure cli (CLI) pour supprimer la ressource Speech que vous avez créée.
Documentation de référence | Package (PyPi) | Exemples supplémentaires sur GitHub
Dans ce guide de démarrage rapide, vous créez et exécutez une application pour reconnaître et transcrire la reconnaissance vocale en temps réel.
Conseil
Pour une transcription rapide des fichiers audio, envisagez d’utiliser l’API de transcription rapide. L’API de transcription rapide prend en charge des fonctionnalités telles que l’identification et la journalisation de la langue.
Pour transcrire des fichiers audio de manière asynchrone, consultez Qu’est-ce que la transcription par lots ?. Si vous ne savez pas quelle solution de reconnaissance vocale est la plus adaptée pour vous, consultez Qu’est-ce que la reconnaissance vocale ?
Prérequis
- Un abonnement Azure. Vous pouvez en créer un gratuitement.
- Créer une ressource AI Services pour Speech dans le portail Azure.
- Obtenez la clé et le point de terminaison de la ressource Speech. Une fois votre ressource Azure Cognitive Service for Speech déployée, sélectionnez Accéder à la ressource pour afficher et gérer les clés.
Configurer l’environnement
Le Kit de développement logiciel (SDK) Speech pour Python est disponible en tant que module Python Package Index (PyPI). Le Kit de développement logiciel (SDK) Speech pour Python est compatible avec Windows, Linux et macOS.
- Pour Windows, installez le redistribuable Microsoft Visual C++ pour Visual Studio 2015, 2017, 2019 et 2022 pour votre plateforme. La toute première installation de ce package peut nécessiter un redémarrage.
- Sur Linux, vous devez utiliser l’architecture cible x64.
Installez une version de Python à partir de la version 3.7 ou ultérieure. Pour d’autres exigences, consultez Installer le Kit de développement logiciel (SDK) Speech.
Définir des variables d’environnement
Vous devez authentifier votre application pour accéder à Foundry Tools. Cet article vous montre comment utiliser des variables d’environnement pour stocker vos informations d’identification. Vous pouvez ensuite accéder aux variables d’environnement depuis votre code pour authentifier votre application. Pour la production, utilisez un moyen plus sécurisé pour stocker vos informations d’identification et y accéder.
Important
Nous vous recommandons d’utiliser l’authentification Microsoft Entra ID avec des identités gérées pour les ressources Azure pour éviter de stocker les identifiants avec vos applications qui s’exécutent dans le cloud.
Utilisez les clés API avec précaution. N’incluez pas la clé API directement dans votre code et ne la diffusez jamais publiquement. Si vous utilisez des clés API, stockez-les en toute sécurité dans Azure Key Vault, faites pivoter les clés régulièrement et limitez l’accès aux Azure Key Vault à l’aide du contrôle d’accès en fonction du rôle et des restrictions d’accès réseau. Pour plus d’informations sur l’utilisation sécurisée des clés API dans vos applications, consultez les API avec Azure Key Vault.
Pour plus d’informations sur la sécurité des services d’INTELLIGENCE artificielle, consultez Demandes d’authentification à Azure AI services.
Pour définir les variables d’environnement de votre clé et point de terminaison de ressource Speech, ouvrez une fenêtre de console et suivez les instructions de votre système d’exploitation et de votre environnement de développement.
- Pour définir la variable d’environnement
SPEECH_KEY, remplacez your-key par l’une des clés de votre ressource. - Pour définir la variable d’environnement
ENDPOINT, remplacez votre point de terminaison par l’un des points de terminaison de votre ressource.
setx SPEECH_KEY your-key
setx ENDPOINT your-endpoint
Remarque
Si vous avez uniquement besoin d'accéder aux variables d'environnement dans la console actuelle, vous pouvez définir la variable d'environnement avec set au lieu de setx.
Après avoir ajouté les variables d'environnement, vous devrez éventuellement redémarrer tous les programmes qui ont besoin de lire les variables d'environnement, y compris la fenêtre de console. Par exemple, si vous utilisez Visual Studio en tant qu'éditeur, redémarrez Visual Studio avant d'exécuter l'exemple.
Reconnaître la voix provenant d’un micro
Conseil
Essayez le Azure Speech dans le Foundry Tools Toolkit pour créer et exécuter facilement des échantillons sur Visual Studio Code.
Suivez ces étapes pour créer une application console.
Ouvrez une fenêtre d’invite de commandes dans le dossier où vous souhaitez placer le nouveau projet. Créez un fichier nommé speech_recognition.py.
Exécutez cette commande pour installer le SDK Speech :
pip install azure-cognitiveservices-speechCopiez le code suivant dans le fichier speech_recognition.py :
import os import azure.cognitiveservices.speech as speechsdk def recognize_from_microphone(): # This example requires environment variables named "SPEECH_KEY" and "ENDPOINT" # Replace with your own subscription key and endpoint, the endpoint is like : "https://YourServiceRegion.api.cognitive.microsoft.com" speech_config = speechsdk.SpeechConfig(subscription=os.environ.get('SPEECH_KEY'), endpoint=os.environ.get('ENDPOINT')) speech_config.speech_recognition_language="en-US" audio_config = speechsdk.audio.AudioConfig(use_default_microphone=True) speech_recognizer = speechsdk.SpeechRecognizer(speech_config=speech_config, audio_config=audio_config) print("Speak into your microphone.") speech_recognition_result = speech_recognizer.recognize_once_async().get() if speech_recognition_result.reason == speechsdk.ResultReason.RecognizedSpeech: print("Recognized: {}".format(speech_recognition_result.text)) elif speech_recognition_result.reason == speechsdk.ResultReason.NoMatch: print("No speech could be recognized: {}".format(speech_recognition_result.no_match_details)) elif speech_recognition_result.reason == speechsdk.ResultReason.Canceled: cancellation_details = speech_recognition_result.cancellation_details print("Speech Recognition canceled: {}".format(cancellation_details.reason)) if cancellation_details.reason == speechsdk.CancellationReason.Error: print("Error details: {}".format(cancellation_details.error_details)) print("Did you set the speech resource key and endpoint values?") recognize_from_microphone()Pour modifier la langue de la reconnaissance vocale, remplacez
en-USpar une autre langue prise en charge. Par exemple, utilisezes-ESpour l’espagnol (Espagne). Si vous ne spécifiez pas de langue, la valeur par défaut esten-US. Pour plus d’informations sur l’identification de l’une des langues qui peuvent être parlées, consultez Identification de la langue.Exécutez votre nouvelle application console pour démarrer la reconnaissance vocale à partir d’un microphone :
python speech_recognition.pyParlez dans votre microphone lorsque vous y êtes invité. Ce que vous dites doit apparaître sous forme de texte :
Speak into your microphone. RECOGNIZED: Text=I'm excited to try speech to text.
Notes
Voici quelques autres éléments à prendre en compte :
Cet exemple utilise l’opération
recognize_once_asyncpour transcrire les énoncés de jusqu’à 30 secondes ou jusqu’à ce que le silence soit détecté. Pour plus d’informations sur la reconnaissance continue des données audio plus longues, y compris les conversations multilingues, consultez Comment effectuer la reconnaissance vocale.Pour reconnaître la parole à partir d’un fichier audio, utilisez
filenameau lieu deuse_default_microphone:audio_config = speechsdk.audio.AudioConfig(filename="YourAudioFile.wav")Pour les fichiers audio compressés tels que les fichiers MP4, installez GStreamer et utilisez
PullAudioInputStreamouPushAudioInputStream. Pour plus d’informations, consultez Utilisation de l’audio d’entrée compressée.
Nettoyer les ressources
Vous pouvez utiliser le portail Azure ou Azure cli (CLI) pour supprimer la ressource Speech que vous avez créée.
Documentation de référence | Package (téléchargement) | Exemples supplémentaires sur GitHub
Dans ce guide de démarrage rapide, vous créez et exécutez une application pour reconnaître et transcrire la reconnaissance vocale en temps réel.
Conseil
Pour une transcription rapide des fichiers audio, envisagez d’utiliser l’API de transcription rapide. L’API de transcription rapide prend en charge des fonctionnalités telles que l’identification et la journalisation de la langue.
Pour transcrire des fichiers audio de manière asynchrone, consultez Qu’est-ce que la transcription par lots ?. Si vous ne savez pas quelle solution de reconnaissance vocale est la plus adaptée pour vous, consultez Qu’est-ce que la reconnaissance vocale ?
Prérequis
- Un abonnement Azure. Vous pouvez en créer un gratuitement.
- Créer une ressource Fonderie pour Speech dans le portail Azure.
- Obtenez la clé de ressource et la région Speech. Une fois votre ressource Azure Cognitive Service for Speech déployée, sélectionnez Accéder à la ressource pour afficher et gérer les clés.
Configurer l’environnement
Le kit de développement logiciel (SDK) Speech pour Swift est distribué en tant que bundle de framework. L’infrastructure prend en charge Objective-C et Swift sur iOS et macOS.
Le kit de développement logiciel (SDK) Speech peut être utilisé dans les projets Xcode en tant que CocoaPod, ou téléchargé directement et lié manuellement. Ce guide utilise un CocoaPod. Installez le gestionnaire de dépendances de CocoaPod comme décrit dans ses instructions d’installation.
Définir des variables d’environnement
Vous devez authentifier votre application pour accéder à Foundry Tools. Cet article vous montre comment utiliser des variables d’environnement pour stocker vos informations d’identification. Vous pouvez ensuite accéder aux variables d’environnement depuis votre code pour authentifier votre application. Pour la production, utilisez un moyen plus sécurisé pour stocker vos informations d’identification et y accéder.
Important
Nous vous recommandons d’utiliser l’authentification Microsoft Entra ID avec des identités gérées pour les ressources Azure pour éviter de stocker les identifiants avec vos applications qui s’exécutent dans le cloud.
Utilisez les clés API avec précaution. N’incluez pas la clé API directement dans votre code et ne la diffusez jamais publiquement. Si vous utilisez des clés API, stockez-les en toute sécurité dans Azure Key Vault, faites pivoter les clés régulièrement et limitez l’accès aux Azure Key Vault à l’aide du contrôle d’accès en fonction du rôle et des restrictions d’accès réseau. Pour plus d’informations sur l’utilisation sécurisée des clés API dans vos applications, consultez les API avec Azure Key Vault.
Pour plus d’informations sur la sécurité des services d’INTELLIGENCE artificielle, consultez Demandes d’authentification à Azure AI services.
Pour définir les variables d'environnement de votre clé de ressource Speech et de votre région, ouvrez une fenêtre de console et suivez les instructions de votre système d'exploitation et de votre environnement de développement.
- Pour définir la variable d’environnement
SPEECH_KEY, remplacez your-key par l’une des clés de votre ressource. - Pour définir la variable d’environnement
SPEECH_REGION, remplacez your-region par l’une des régions de votre ressource. - Pour définir la variable d’environnement
ENDPOINT, remplacezyour-endpointpar le point de terminaison réel de votre ressource Speech.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint
Remarque
Si vous avez uniquement besoin d'accéder aux variables d'environnement dans la console actuelle, vous pouvez définir la variable d'environnement avec set au lieu de setx.
Après avoir ajouté les variables d'environnement, vous devrez éventuellement redémarrer tous les programmes qui ont besoin de lire les variables d'environnement, y compris la fenêtre de console. Par exemple, si vous utilisez Visual Studio en tant qu'éditeur, redémarrez Visual Studio avant d'exécuter l'exemple.
Reconnaître la voix provenant d’un micro
Pour reconnaître la parole dans une application macOS, procédez comme suit.
Clonez le dépôt Azure-Samples/cognitive-services-speech-sdk pour obtenir l'exemple de projet Reconnaître la parole à partir d’un microphone en Swift sur macOS. Le référentiel contient également des exemples iOS.
Accédez au répertoire de l’exemple d’application téléchargé (
helloworld) dans un terminal.Exécutez la commande
pod install. Cette commande génère un espace de travail Xcodehelloworld.xcworkspacecontenant l’exemple d’application et le SDK Speech comme dépendance.Ouvrez l’espace de travail
helloworld.xcworkspacedans Xcode.Ouvrez le fichier nommé AppDelegate.swift et recherchez les méthodes
applicationDidFinishLaunchingetrecognizeFromMiccomme indiqué ici.import Cocoa @NSApplicationMain class AppDelegate: NSObject, NSApplicationDelegate { var label: NSTextField! var fromMicButton: NSButton! var sub: String! var region: String! @IBOutlet weak var window: NSWindow! func applicationDidFinishLaunching(_ aNotification: Notification) { print("loading") // load subscription information sub = ProcessInfo.processInfo.environment["SPEECH_KEY"] region = ProcessInfo.processInfo.environment["SPEECH_REGION"] label = NSTextField(frame: NSRect(x: 100, y: 50, width: 200, height: 200)) label.textColor = NSColor.black label.lineBreakMode = .byWordWrapping label.stringValue = "Recognition Result" label.isEditable = false self.window.contentView?.addSubview(label) fromMicButton = NSButton(frame: NSRect(x: 100, y: 300, width: 200, height: 30)) fromMicButton.title = "Recognize" fromMicButton.target = self fromMicButton.action = #selector(fromMicButtonClicked) self.window.contentView?.addSubview(fromMicButton) } @objc func fromMicButtonClicked() { DispatchQueue.global(qos: .userInitiated).async { self.recognizeFromMic() } } func recognizeFromMic() { var speechConfig: SPXSpeechConfiguration? do { try speechConfig = SPXSpeechConfiguration(subscription: sub, region: region) } catch { print("error \(error) happened") speechConfig = nil } speechConfig?.speechRecognitionLanguage = "en-US" let audioConfig = SPXAudioConfiguration() let reco = try! SPXSpeechRecognizer(speechConfiguration: speechConfig!, audioConfiguration: audioConfig) reco.addRecognizingEventHandler() {reco, evt in print("intermediate recognition result: \(evt.result.text ?? "(no result)")") self.updateLabel(text: evt.result.text, color: .gray) } updateLabel(text: "Listening ...", color: .gray) print("Listening...") let result = try! reco.recognizeOnce() print("recognition result: \(result.text ?? "(no result)"), reason: \(result.reason.rawValue)") updateLabel(text: result.text, color: .black) if result.reason != SPXResultReason.recognizedSpeech { let cancellationDetails = try! SPXCancellationDetails(fromCanceledRecognitionResult: result) print("cancelled: \(result.reason), \(cancellationDetails.errorDetails)") print("Did you set the speech resource key and region values?") updateLabel(text: "Error: \(cancellationDetails.errorDetails)", color: .red) } } func updateLabel(text: String?, color: NSColor) { DispatchQueue.main.async { self.label.stringValue = text! self.label.textColor = color } } }Dans AppDelegate.m, utilisez les variables d’environnement que vous avez précédemment définies pour la clé et la région de votre ressource Speech.
sub = ProcessInfo.processInfo.environment["SPEECH_KEY"] region = ProcessInfo.processInfo.environment["SPEECH_REGION"]Pour modifier la langue de la reconnaissance vocale, remplacez
en-USpar une autre langue prise en charge. Par exemple, utilisezes-ESpour l’espagnol (Espagne). Si vous ne spécifiez pas de langue, la valeur par défaut esten-US. Pour plus d’informations sur l’identification de l’une des nombreuses langues qui peuvent être parlées, consultez Identification de la langue.Pour afficher la sortie de débogage, sélectionnez Vue>Zone de débogage>Activer console.
Générez et exécutez l’exemple de code en sélectionnant Produit>Exécuter dans le menu ou en sélectionnant le bouton Lecture.
Après avoir sélectionné le bouton dans l’application et prononcé quelques mots, vous devez voir le texte énoncé dans la partie inférieure de l’écran. Quand vous exécutez l’application pour la première fois, elle vous invite à autoriser l’application à accéder au microphone de votre ordinateur.
Notes
Cet exemple utilise l’opération recognizeOnce pour transcrire les énoncés de jusqu’à 30 secondes ou jusqu’à ce que le silence soit détecté. Pour plus d’informations sur la reconnaissance continue des données audio plus longues, y compris les conversations multilingues, consultez Comment effectuer la reconnaissance vocale.
Objective-C
Le Kit de développement logiciel (SDK) Speech pour Objective-C partage les bibliothèques clientes et la documentation de référence avec le Kit de développement logiciel (SDK) Speech pour Swift. Pour obtenir des exemples de code en Objective-C, consultez le projet d'exemple reconnaissance vocale à partir d’un microphone en Objective-C sur macOS sur GitHub.
Nettoyer les ressources
Vous pouvez utiliser le portail Azure ou Azure cli (CLI) pour supprimer la ressource Speech que vous avez créée.
Documentation de Référence | Package (npm) | Exemples supplémentaires sur GitHub | Code source de la bibliothèque
Dans ce guide de démarrage rapide, vous créez et exécutez une application pour reconnaître et transcrire la reconnaissance vocale en temps réel.
Conseil
Pour une transcription rapide des fichiers audio, envisagez d’utiliser l’API de transcription rapide. L’API de transcription rapide prend en charge des fonctionnalités telles que l’identification et la journalisation de la langue.
Pour transcrire des fichiers audio de manière asynchrone, consultez Qu’est-ce que la transcription par lots ?. Si vous ne savez pas quelle solution de reconnaissance vocale est la plus adaptée pour vous, consultez Qu’est-ce que la reconnaissance vocale ?
Prérequis
- Un abonnement Azure. Vous pouvez en créer un gratuitement.
- Créer une ressource Fonderie pour Speech dans le portail Azure.
- Obtenez la clé de ressource et la région Speech. Une fois votre ressource Azure Cognitive Service for Speech déployée, sélectionnez Accéder à la ressource pour afficher et gérer les clés.
Vous avez également besoin d’un fichier audio .wav sur votre ordinateur local. Vous pouvez utiliser votre propre fichier .wav (jusqu’à 30 secondes) ou télécharger l’exemple de fichier https://crbn.us/whatstheweatherlike.wav.
Configuration
Créez un dossier
transcription-quickstartet accédez au dossier de démarrage rapide avec la commande suivante :mkdir transcription-quickstart && cd transcription-quickstartCréez le
package.jsonavec la commande suivante :npm init -yMettez à jour le
package.jsonvers ECMAScript avec la commande suivante :npm pkg set type=moduleInstallez le Kit de développement logiciel (SDK) Speech pour JavaScript avec :
npm install microsoft-cognitiveservices-speech-sdkVous devez installer les définitions de type Node.js pour éviter les erreurs TypeScript. Exécutez la commande suivante:
npm install --save-dev @types/node
Récupérer des informations sur les ressources
Vous devez authentifier votre application pour accéder à Foundry Tools. Cet article vous montre comment utiliser des variables d’environnement pour stocker vos informations d’identification. Vous pouvez ensuite accéder aux variables d’environnement depuis votre code pour authentifier votre application. Pour la production, utilisez un moyen plus sécurisé pour stocker vos informations d’identification et y accéder.
Important
Nous vous recommandons d’utiliser l’authentification Microsoft Entra ID avec des identités gérées pour les ressources Azure pour éviter de stocker les identifiants avec vos applications qui s’exécutent dans le cloud.
Utilisez les clés API avec précaution. N’incluez pas la clé API directement dans votre code et ne la diffusez jamais publiquement. Si vous utilisez des clés API, stockez-les en toute sécurité dans Azure Key Vault, faites pivoter les clés régulièrement et limitez l’accès aux Azure Key Vault à l’aide du contrôle d’accès en fonction du rôle et des restrictions d’accès réseau. Pour plus d’informations sur l’utilisation sécurisée des clés API dans vos applications, consultez les API avec Azure Key Vault.
Pour plus d’informations sur la sécurité des services d’INTELLIGENCE artificielle, consultez Demandes d’authentification à Azure AI services.
Pour définir les variables d'environnement de votre clé de ressource Speech et de votre région, ouvrez une fenêtre de console et suivez les instructions de votre système d'exploitation et de votre environnement de développement.
- Pour définir la variable d’environnement
SPEECH_KEY, remplacez your-key par l’une des clés de votre ressource. - Pour définir la variable d’environnement
SPEECH_REGION, remplacez your-region par l’une des régions de votre ressource. - Pour définir la variable d’environnement
ENDPOINT, remplacezyour-endpointpar le point de terminaison réel de votre ressource Speech.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint
Remarque
Si vous avez uniquement besoin d'accéder aux variables d'environnement dans la console actuelle, vous pouvez définir la variable d'environnement avec set au lieu de setx.
Après avoir ajouté les variables d'environnement, vous devrez éventuellement redémarrer tous les programmes qui ont besoin de lire les variables d'environnement, y compris la fenêtre de console. Par exemple, si vous utilisez Visual Studio en tant qu'éditeur, redémarrez Visual Studio avant d'exécuter l'exemple.
Utiliser la reconnaissance vocale à partir d’un fichier
Pour transcrire la voix à partir d’un fichier :
Créez un fichier nommé transcription.ts avec le contenu suivant :
import { readFileSync } from "fs"; import { SpeechConfig, AudioConfig, SpeechRecognizer, ResultReason, CancellationDetails, CancellationReason, SpeechRecognitionResult } from "microsoft-cognitiveservices-speech-sdk"; // This example requires environment variables named "ENDPOINT" and "SPEECH_KEY" const speechConfig: SpeechConfig = SpeechConfig.fromEndpoint(new URL(process.env.ENDPOINT!), process.env.SPEECH_KEY!); speechConfig.speechRecognitionLanguage = "en-US"; function fromFile(): void { const audioConfig: AudioConfig = AudioConfig.fromWavFileInput(readFileSync("YourAudioFile.wav")); const speechRecognizer: SpeechRecognizer = new SpeechRecognizer(speechConfig, audioConfig); speechRecognizer.recognizeOnceAsync((result: SpeechRecognitionResult) => { switch (result.reason) { case ResultReason.RecognizedSpeech: console.log(`RECOGNIZED: Text=${result.text}`); break; case ResultReason.NoMatch: console.log("NOMATCH: Speech could not be recognized."); break; case ResultReason.Canceled: const cancellation: CancellationDetails = CancellationDetails.fromResult(result); console.log(`CANCELED: Reason=${cancellation.reason}`); if (cancellation.reason === CancellationReason.Error) { console.log(`CANCELED: ErrorCode=${cancellation.ErrorCode}`); console.log(`CANCELED: ErrorDetails=${cancellation.errorDetails}`); console.log("CANCELED: Did you set the speech resource key and region values?"); } break; } speechRecognizer.close(); }); } fromFile();Dans transcription.ts, remplacez YourAudioFile.wav par votre propre fichier de .wav . Cet exemple reconnaît uniquement la voix à partir d’un fichier .wav. Pour plus d’informations sur d’autres formats audio, consultez Utilisation de l’audio d’entrée compressée. Cet exemple prend en charge jusqu’à 30 secondes d’audio.
Pour modifier la langue de la reconnaissance vocale, remplacez
en-USpar une autre langue prise en charge. Par exemple, utilisezes-ESpour l’espagnol (Espagne). Si vous ne spécifiez pas de langue, la valeur par défaut esten-US. Pour plus d’informations sur l’identification de l’une des nombreuses langues qui peuvent être parlées, consultez Identification de la langue.Créez le fichier
tsconfig.jsonpour transpiler le code TypeScript et copiez le code suivant pour ECMAScript.{ "compilerOptions": { "module": "NodeNext", "target": "ES2022", // Supports top-level await "moduleResolution": "NodeNext", "skipLibCheck": true, // Avoid type errors from node_modules "strict": true // Enable strict type-checking options }, "include": ["*.ts"] }Transpiler de TypeScript à JavaScript.
tscCette commande ne doit produire aucune sortie si elle réussit.
Exécutez votre nouvelle application console pour démarrer la reconnaissance vocale à partir d’un fichier :
node transcription.js
Attendez quelques instants pour obtenir une réponse.
Output
La parole du fichier audio doit être générée sous forme de texte :
RECOGNIZED: Text=I'm excited to try speech to text.
Notes
Cet exemple utilise l’opération recognizeOnceAsync pour transcrire les énoncés de jusqu’à 30 secondes ou jusqu’à ce que le silence soit détecté. Pour plus d’informations sur la reconnaissance continue des données audio plus longues, y compris les conversations multilingues, consultez Comment effectuer la reconnaissance vocale.
Nettoyer les ressources
Vous pouvez utiliser le portail Azure ou Azure cli (CLI) pour supprimer la ressource Speech que vous avez créée.
Référence de l’API REST de conversion de la parole en texte | Référence de l’API REST de conversion de la parole en texte pour les fichiers audio courts | Exemples supplémentaires sur GitHub.
Dans ce guide de démarrage rapide, vous créez et exécutez une application pour reconnaître et transcrire la reconnaissance vocale en temps réel.
Conseil
Pour une transcription rapide des fichiers audio, envisagez d’utiliser l’API de transcription rapide. L’API de transcription rapide prend en charge des fonctionnalités telles que l’identification et la journalisation de la langue.
Pour transcrire des fichiers audio de manière asynchrone, consultez Qu’est-ce que la transcription par lots ?. Si vous ne savez pas quelle solution de reconnaissance vocale est la plus adaptée pour vous, consultez Qu’est-ce que la reconnaissance vocale ?
Prérequis
- Un abonnement Azure. Vous pouvez en créer un gratuitement.
- Créer une ressource Fonderie pour Speech dans le portail Azure.
- Obtenez la clé de ressource et la région Speech. Une fois votre ressource Azure Cognitive Service for Speech déployée, sélectionnez Accéder à la ressource pour afficher et gérer les clés.
Vous avez également besoin d’un fichier audio .wav sur votre ordinateur local. Vous pouvez utiliser votre propre fichier .wav (jusqu’à 60 secondes) ou télécharger l’exemple de fichier https://crbn.us/whatstheweatherlike.wav.
Définir des variables d’environnement
Vous devez authentifier votre application pour accéder à Foundry Tools. Cet article vous montre comment utiliser des variables d’environnement pour stocker vos informations d’identification. Vous pouvez ensuite accéder aux variables d’environnement depuis votre code pour authentifier votre application. Pour la production, utilisez un moyen plus sécurisé pour stocker vos informations d’identification et y accéder.
Important
Nous vous recommandons d’utiliser l’authentification Microsoft Entra ID avec des identités gérées pour les ressources Azure pour éviter de stocker les identifiants avec vos applications qui s’exécutent dans le cloud.
Utilisez les clés API avec précaution. N’incluez pas la clé API directement dans votre code et ne la diffusez jamais publiquement. Si vous utilisez des clés API, stockez-les en toute sécurité dans Azure Key Vault, faites pivoter les clés régulièrement et limitez l’accès aux Azure Key Vault à l’aide du contrôle d’accès en fonction du rôle et des restrictions d’accès réseau. Pour plus d’informations sur l’utilisation sécurisée des clés API dans vos applications, consultez les API avec Azure Key Vault.
Pour plus d’informations sur la sécurité des services d’INTELLIGENCE artificielle, consultez Demandes d’authentification à Azure AI services.
Pour définir les variables d'environnement de votre clé de ressource Speech et de votre région, ouvrez une fenêtre de console et suivez les instructions de votre système d'exploitation et de votre environnement de développement.
- Pour définir la variable d’environnement
SPEECH_KEY, remplacez your-key par l’une des clés de votre ressource. - Pour définir la variable d’environnement
SPEECH_REGION, remplacez your-region par l’une des régions de votre ressource. - Pour définir la variable d’environnement
ENDPOINT, remplacezyour-endpointpar le point de terminaison réel de votre ressource Speech.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint
Remarque
Si vous avez uniquement besoin d'accéder aux variables d'environnement dans la console actuelle, vous pouvez définir la variable d'environnement avec set au lieu de setx.
Après avoir ajouté les variables d'environnement, vous devrez éventuellement redémarrer tous les programmes qui ont besoin de lire les variables d'environnement, y compris la fenêtre de console. Par exemple, si vous utilisez Visual Studio en tant qu'éditeur, redémarrez Visual Studio avant d'exécuter l'exemple.
Utiliser la reconnaissance vocale à partir d’un fichier
Ouvrez une fenêtre de console et exécutez la commande cURL suivante. Remplacez YourAudioFile.wav par le chemin d’accès et le nom de votre fichier audio.
curl --location --request POST "https://%SPEECH_REGION%.stt.speech.microsoft.com/speech/recognition/conversation/cognitiveservices/v1?language=en-US&format=detailed" ^
--header "Ocp-Apim-Subscription-Key: %SPEECH_KEY%" ^
--header "Content-Type: audio/wav" ^
--data-binary "@YourAudioFile.wav"
Important
N’oubliez pas de définir les SPEECH_KEYSPEECH_REGION et . Si vous ne définissez pas ces variables, l’exemple échoue avec un message d’erreur.
Vous devriez recevoir une réponse similaire à ce qui est présenté ici.
DisplayText doit être le texte qui a été reconnu à partir de votre fichier audio. La commande reconnaît jusqu’à 60 secondes d’audio et la convertit en texte.
{
"RecognitionStatus": "Success",
"DisplayText": "My voice is my passport, verify me.",
"Offset": 6600000,
"Duration": 32100000
}
Pour plus d’informations, consultez API REST de reconnaissance vocale pour l’audio court.
Nettoyer les ressources
Vous pouvez utiliser le portail Azure ou Azure cli (CLI) pour supprimer la ressource Speech que vous avez créée.