Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
In dit artikel leert u hoe u een aangepast model traint om de nauwkeurigheid van herkenning van het Microsoft basismodel te verbeteren. De nauwkeurigheid en kwaliteit van spraakherkenning van een aangepast spraakmodel blijven consistent, zelfs wanneer er een nieuw basismodel wordt vrijgegeven.
Notitie
U betaalt voor het gebruik van aangepaste spraakmodellen en het hosten van eindpunten. Er worden ook kosten in rekening gebracht voor het trainen van aangepaste spraakmodellen als het basismodel is gemaakt op 1 oktober 2023 en hoger. Er worden geen kosten in rekening gebracht voor training als het basismodel vóór oktober 2023 is gemaakt. Voor meer informatie, zie Azure Speech in Foundry Tools pricing en de sectie 'Kosten voor aanpassing' in de speech to text 3.2 migratiehandleiding.
Het trainen van een model is doorgaans een iteratief proces. U selecteert eerst een basismodel dat het startpunt is voor een nieuw model. U traint een model met gegevenssets die tekst en audio kunnen bevatten en vervolgens test. Als de herkenningskwaliteit of nauwkeurigheid niet aan uw vereisten voldoet, kunt u een nieuw model maken met meer of gewijzigde trainingsgegevens en vervolgens opnieuw testen.
U kunt een aangepast model gedurende een beperkte tijd gebruiken nadat het is getraind. U moet uw aangepaste model periodiek opnieuw maken en aanpassen op basis van het nieuwste basismodel om te profiteren van de verbeterde nauwkeurigheid en kwaliteit. Zie model- en eindpuntlevenscyclus voor meer informatie.
Belangrijk
Als u een aangepast model traint met audiogegevens, selecteert u een serviceresource in een regio met toegewezen hardware voor het trainen van audiogegevens. Nadat een model is getraind, kunt u het naar een Foundry-resource voor Spraak in een andere regio kopiëren, indien nodig.
In regio's met toegewezen hardware voor aangepaste spraaktraining gebruikt de Speech-service maximaal 100 uur aan audiotrainingsgegevens en kan deze ongeveer 10 uur aan gegevens per dag verwerken. Zie voetnoten in de tabel regio's voor meer informatie.
Een model maken
Aanbeveling
Breng uw aangepaste spraakmodellen van Speech Studio naar de Microsoft Foundry-portal. In Microsoft Foundry-portal kunt u verder gaan waar u was gebleven door verbinding te maken met uw bestaande Speech-resource. Zie Verbinding maken met een bestaande Spraak-resource voor meer informatie over het maken van verbinding met een bestaande Spraak-resource.
Meld u aan bij de Microsoft Foundry-portal.
Selecteer Fine-tuning in het linkerdeelvenster en selecteer vervolgens AI Service fine-tuning.
Selecteer de aangepaste spraakafstemmingstaak (op modelnaam) die u hebt gestart, zoals beschreven in het artikel voor het afstemmen van aangepaste spraak.
Selecteer Train model>+ Train model.
Selecteer in de Een nieuw model trainen wizard het basismodel dat u wilt fijn afstemmen. Klik daarna op Volgende.
Selecteer de gegevens die u wilt gebruiken voor training. Klik daarna op Volgende.
Voer een naam en beschrijving in voor het model. Klik daarna op Volgende.
Controleer de instellingen en selecteer Een nieuw model trainen. U gaat terug naar de Model trainen pagina. De status van de gegevens is in behandeling.
Nadat u de trainingsdatasets hebt geüpload, volgt u deze instructies om uw model te trainen:
Meld u aan bij Speech Studio.
Selecteer Custom speech> Uw projectnaam >Train custom models.
Selecteer Een nieuw model trainen.
Selecteer op de pagina Basismodel selecteren een model en klik daarna op Volgende. Als u het niet zeker weet, selecteert u het meest recente model bovenaan de lijst. De naam van het basismodel komt overeen met de datum waarop het werd uitgebracht in de JJJJMMDD-indeling. De aanpassingsmogelijkheden van het basismodel worden tussen haakjes weergegeven na de modelnaam in Speech Studio.
Belangrijk
Noteer de vervaldatum voor aanpassing. Dit is de laatste datum waarop u het basismodel kunt gebruiken voor training. Zie model- en eindpuntlevenscyclus voor meer informatie.
Selecteer op de Gegevens kiezen pagina een of meer gegevenssets die u wilt gebruiken voor het trainen. Als er geen gegevenssets beschikbaar zijn, annuleert u de installatie en gaat u naar het menu Spraakgegevenssets om gegevenssets te uploaden.
Voer een naam en beschrijving in voor uw aangepaste model en selecteer vervolgens Volgende.
Vink desgewenst het selectievakje Test toevoegen in de volgende stap aan. Als u deze stap overslaat, kunt u dezelfde tests later uitvoeren. Zie Kwaliteit van testherkenning en testmodel kwantitatief voor meer informatie.
Selecteer Opslaan en sluiten om de build voor uw aangepaste model te starten.
Ga terug naar de Aangepaste modellen trainen pagina.
Belangrijk
Noteer de vervaldatum . Dit is de laatste datum waarop u uw aangepaste model kunt gebruiken voor spraakherkenning. Zie model- en eindpuntlevenscyclus voor meer informatie.
Voordat u doorgaat, moet u ervoor zorgen dat de Speech CLI is geïnstalleerd en geconfigureerd.
Als u een model wilt maken met gegevenssets voor training, gebruikt u de spx csr model create opdracht. Bouw de aanvraagparameters volgens de volgende instructies:
- Stel de
projecteigenschap in op de id van een bestaand project. De eigenschapprojectwordt aanbevolen, zodat u ook het afstemmen van aangepaste spraak kunt beheren in de Microsoft Foundry-portal. Zie de Documentatie voor het verkrijgen van de project-id voor de REST API. - Stel de vereiste
dataseteigenschap in op de id van een gegevensset die u wilt gebruiken voor training. Als u meerdere gegevenssets wilt opgeven, stelt u dedatasetsparameter (meervoud) in en scheidt u de id's met een puntkomma. - Stel de vereiste
languageeigenschap in. De landinstelling van de gegevensset moet overeenkomen met de landinstelling van het project. De landinstelling kan later niet meer worden gewijzigd. De speech CLI-eigenschaplanguagekomt overeen met delocaleeigenschap in de JSON-aanvraag en het antwoord. - Stel de vereiste
nameeigenschap in. Deze parameter is de naam die wordt weergegeven in de Microsoft Foundry-portal. De speech CLI-eigenschapnamekomt overeen met dedisplayNameeigenschap in de JSON-aanvraag en het antwoord. - U kunt de
baseeigenschap desgewenst instellen. Voorbeeld:--base bbbbcccc-1111-dddd-2222-eeee3333ffff. Als u hetbasemodel niet specificeert, wordt het standaardbasismodel voor de landinstelling gebruikt. De speech CLI-eigenschapbasekomt overeen met debaseModeleigenschap in de JSON-aanvraag en het antwoord.
Hier volgt een voorbeeld van een Speech CLI-opdracht waarmee een model wordt gemaakt met gegevenssets voor training:
spx csr model create --api-version v3.2 --project YourProjectId --name "My Model" --description "My Model Description" --dataset YourDatasetId --language "en-US"
Belangrijk
Je moet iets instellen --api-version v3.2. De Speech CLI maakt gebruik van de REST API, maar biedt nog geen ondersteuning voor versies later dan v3.2.
U ontvangt een antwoordtekst in de volgende indeling:
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/aaaabbbb-0000-cccc-1111-dddd2222eeee",
"baseModel": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/bbbbcccc-1111-dddd-2222-eeee3333ffff"
},
"datasets": [
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/ccccdddd-2222-eeee-3333-ffff4444aaaa"
}
],
"links": {
"manifest": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/9e240dc1-3d2d-4ac9-98ec-1be05ba0e9dd/manifest",
"copy": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/9e240dc1-3d2d-4ac9-98ec-1be05ba0e9dd:copy",
"files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/9e240dc1-3d2d-4ac9-98ec-1be05ba0e9dd/files"
},
"project": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/ddddeeee-3333-ffff-4444-aaaa5555bbbb"
},
"properties": {
"deprecationDates": {
"transcriptionDateTime": "2026-07-15T00:00:00Z"
},
"customModelWeightPercent": 30,
"features": {
"supportsTranscriptions": true,
"supportsEndpoints": true,
"supportsTranscriptionsOnSpeechContainers": false,
"supportedOutputFormats": [
"Display",
"Lexical"
]
}
},
"lastActionDateTime": "2024-07-14T21:38:40Z",
"status": "Running",
"createdDateTime": "2024-07-14T21:38:40Z",
"locale": "en-US",
"displayName": "My Model",
"description": "My Model Description"
}
Belangrijk
Noteer de datum in de adaptationDateTime eigenschap. Dit is de laatste datum waarop u het basismodel kunt gebruiken voor training. Zie model- en eindpuntlevenscyclus voor meer informatie.
Noteer de datum in de transcriptionDateTime eigenschap. Dit is de laatste datum waarop u uw aangepaste model kunt gebruiken voor spraakherkenning. Zie model- en eindpuntlevenscyclus voor meer informatie.
De eigenschap op het hoogste niveau self in de hoofdtekst van het antwoord is de URI van het model. Gebruik deze URI voor meer informatie over de project-, manifest- en afschaffingsdatums van het model. U gebruikt deze URI ook om een model bij te werken of te verwijderen.
Voer de volgende opdracht uit voor Speech CLI-hulp bij modellen:
spx help csr model
Als u een model wilt maken met gegevenssets voor training, gebruikt u de Models_Create bewerking van de REST API voor spraak naar tekst. Stel de aanvraagbody samen volgens de volgende instructies:
- Stel de
projecteigenschap in op de URI van een bestaand project. Deze eigenschap wordt aanbevolen, zodat u het model ook kunt bekijken en beheren in de Microsoft Foundry-portal. Zie de Documentatie voor het verkrijgen van de project-id voor de REST API. - Stel de vereiste
datasetseigenschap in op de URI van de gegevenssets die u wilt gebruiken voor training. - Stel de vereiste
localeeigenschap in. De landinstelling van het model moet overeenkomen met de landinstelling van het project en het basismodel. De landinstelling kan later niet gewijzigd worden. - Stel de vereiste
displayNameeigenschap in. Deze eigenschap is de naam die wordt weergegeven in de Microsoft Foundry-portal. - U kunt de
baseModeleigenschap desgewenst instellen. Voorbeeld:"baseModel": {"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/bbbbcccc-1111-dddd-2222-eeee3333ffff"}. Als u hetbaseModel-model niet opgeeft, wordt het standaardbasismodel voor de locale gebruikt.
Maak een HTTP POST-aanvraag met behulp van de URI, zoals wordt weergegeven in het volgende voorbeeld. Vervang door YourSpeechResoureKey de spraakresourcesleutel, vervang deze door YourServiceRegion uw spraakresourceregio en stel de eigenschappen van de aanvraagbody in zoals eerder beschreven.
curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSpeechResoureKey" -H "Content-Type: application/json" -d '{
"project": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/ddddeeee-3333-ffff-4444-aaaa5555bbbb"
},
"displayName": "My Model",
"description": "My Model Description",
"baseModel": null,
"datasets": [
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/ccccdddd-2222-eeee-3333-ffff4444aaaa"
}
],
"locale": "en-US"
}' "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/models"
Notitie
In dit voorbeeld is het baseModel niet ingesteld, dus het standaardbasismodel voor de landinstelling wordt gebruikt. De basismodel-URI wordt geretourneerd in het antwoord.
U ontvangt een antwoordtekst in de volgende indeling:
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/aaaabbbb-0000-cccc-1111-dddd2222eeee",
"baseModel": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/bbbbcccc-1111-dddd-2222-eeee3333ffff"
},
"datasets": [
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/ccccdddd-2222-eeee-3333-ffff4444aaaa"
}
],
"links": {
"manifest": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/9e240dc1-3d2d-4ac9-98ec-1be05ba0e9dd/manifest",
"copy": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/9e240dc1-3d2d-4ac9-98ec-1be05ba0e9dd:copy",
"files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/9e240dc1-3d2d-4ac9-98ec-1be05ba0e9dd/files"
},
"project": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/ddddeeee-3333-ffff-4444-aaaa5555bbbb"
},
"properties": {
"deprecationDates": {
"transcriptionDateTime": "2026-07-15T00:00:00Z"
},
"customModelWeightPercent": 30,
"features": {
"supportsTranscriptions": true,
"supportsEndpoints": true,
"supportsTranscriptionsOnSpeechContainers": false,
"supportedOutputFormats": [
"Display",
"Lexical"
]
}
},
"lastActionDateTime": "2024-07-14T21:38:40Z",
"status": "Running",
"createdDateTime": "2024-07-14T21:38:40Z",
"locale": "en-US",
"displayName": "My Model",
"description": "My Model Description"
}
Belangrijk
Noteer de datum in de adaptationDateTime eigenschap. Dit is de laatste datum waarop u het basismodel kunt gebruiken voor training. Zie model- en eindpuntlevenscyclus voor meer informatie.
Noteer de datum in de transcriptionDateTime eigenschap. Dit is de laatste datum waarop u uw aangepaste model kunt gebruiken voor spraakherkenning. Zie model- en eindpuntlevenscyclus voor meer informatie.
De eigenschap op het hoogste niveau self in de hoofdtekst van het antwoord is de URI van het model. Gebruik deze URI om details te verkrijgen over het project van het model, het manifest en de afschaffingsdata. U gebruikt deze URI ook om het model bij te werken of te verwijderen.
Een model kopiëren
U kunt een model kopiëren naar een ander project met dezelfde landinstelling. Nadat een model bijvoorbeeld is getraind met audiogegevens in een regio met toegewezen hardware voor training, kunt u het naar een Foundry-resource voor Spraak in een andere regio kopiëren, indien nodig.
Volg deze instructies om een model naar een project in een andere regio te kopiëren:
- Meld u aan bij Speech Studio.
- Selecteer Custom speech> Uw projectnaam >Train custom models.
- Selecteer Kopiëren naar.
- Selecteer op de pagina Spraakmodel kopiëren een doelregio waar u het model wilt kopiëren.
- Selecteer een Foundry-resource voor Spraak in de doelregio of maak een nieuwe Speech-resource.
- Selecteer een project waarin u het model wilt kopiëren of maak een nieuw project.
- Selecteer Kopiëren.
Nadat het model is gekopieerd, ontvangt u een melding en kunt u het bekijken in het doelproject.
Voordat u doorgaat, moet u ervoor zorgen dat de Speech CLI is geïnstalleerd en geconfigureerd.
De Speech CLI ondersteunt de opdracht voor het spx csr model copy kopiëren van een model. De CLI bevat echter nog geen opdracht voor het autoriseren van kopiëren. Als u de volledige kopieerstroom wilt uitvoeren, gebruikt u de Speech to text REST API of de Microsoft Foundry-portal.
Voer de volgende opdracht uit voor Speech CLI-hulp bij het kopiëren van modellen:
spx help csr model copy
Voor het kopiëren van een model naar een andere Speech-resource met de REST API voor spraak naar tekst v3.2 zijn twee stappen vereist:
- Autoriseer de kopie op de doelspraakbron.
- Kopieer het model uit de spraakbron.
Stap 1: De kopie autoriseren
Roep de Models_AuthorizeCopy-bewerking aan op de doel-spraakresource. Stel in de aanvraagbody de eigenschap sourceResourceId in op de Azure resource-id van de source Speech-resource waarin het model zich momenteel bevindt.
Vervang YourTargetSpeechResourceKey door de doelresourcesleutel en YourTargetServiceRegion door de doelresourceregio.
curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourTargetSpeechResourceKey" -H "Content-Type: application/json" -d '{
"sourceResourceId": "/subscriptions/YourSourceSubscriptionId/resourceGroups/YourSourceResourceGroup/providers/Microsoft.CognitiveServices/accounts/YourSourceSpeechResourceName"
}' "https://YourTargetServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/models:authorizecopy"
U ontvangt een ModelCopyAuthorization antwoord in de volgende indeling:
{
"targetResourceRegion": "westus2",
"targetResourceId": "/subscriptions/targetSubscriptionId/resourceGroups/targetResourceGroupName/providers/Microsoft.CognitiveServices/accounts/targetSpeechResourceName",
"targetResourceEndpoint": "https://westus2.api.cognitive.microsoft.com/speechtotext/v3.2/models",
"sourceResourceId": "/subscriptions/sourceSubscriptionId/resourceGroups/sourceResourceGroupName/providers/Microsoft.CognitiveServices/accounts/sourceSpeechResourceName",
"expirationDateTime": "2025-01-07T11:34:12Z",
"id": "d61573c6-788b-4eff-b3f5-38a1c7a9585b"
}
Sla de volledige hoofdtekst van het antwoord op. U geeft deze door als de hoofdtekst van de aanvraag in de volgende stap.
Stap 2: Het model kopiëren
Roep de Models_Copy-bewerking aan op de bron spraakresource. Geef het volledige ModelCopyAuthorization antwoord van stap 1 door als de aanvraagbody.
Vervang YourModelId door de model-id, YourSourceSpeechResourceKey door de bronresource-sleutel en YourSourceServiceRegion door de bronresource-regio.
curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSourceSpeechResourceKey" -H "Content-Type: application/json" -d '{
"targetResourceRegion": "westus2",
"targetResourceId": "/subscriptions/targetSubscriptionId/resourceGroups/targetResourceGroupName/providers/Microsoft.CognitiveServices/accounts/targetSpeechResourceName",
"targetResourceEndpoint": "https://westus2.api.cognitive.microsoft.com/speechtotext/v3.2/models",
"sourceResourceId": "/subscriptions/sourceSubscriptionId/resourceGroups/sourceResourceGroupName/providers/Microsoft.CognitiveServices/accounts/sourceSpeechResourceName",
"expirationDateTime": "2025-01-07T11:34:12Z",
"id": "d61573c6-788b-4eff-b3f5-38a1c7a9585b"
}' "https://YourSourceServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/models/YourModelId:copy"
U ontvangt een 202 Accepted antwoord met een Operation-Location header die u kunt gebruiken om de kopieerstatus bij te houden. De hoofdtekst van het antwoord bevat de details van de bewerking:
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/operations/models/copy/e30f6a27-82be-4cca-9258-0399c70489ff",
"createdDateTime": "2025-01-07T11:34:12Z",
"lastActionDateTime": "2025-01-07T11:34:12Z",
"status": "NotStarted",
"id": "e30f6a27-82be-4cca-9258-0399c70489ff"
}
Notitie
De kopieerautorisatie is alleen geldig totdat de in stap 1 geretourneerde expirationDateTime. Start de kopie voordat de autorisatie verloopt.
Een model verbinden
Modellen zijn mogelijk gekopieerd uit het ene project met behulp van de Speech CLI of REST API, zonder dat ze zijn verbonden met een ander project. Het verbinden van een model is een kwestie van het bijwerken van het model met een verwijzing naar het project.
Als u hierom wordt gevraagd in Speech Studio, kunt u deze verbinden door de knop Verbinding maken te selecteren.
Voordat u doorgaat, moet u ervoor zorgen dat de Speech CLI is geïnstalleerd en geconfigureerd.
Gebruik de spx csr model update opdracht om een model te verbinden met een project. Bouw de aanvraagparameters volgens de volgende instructies:
- Stel de
projecteigenschap in op de id van een bestaand project. De eigenschapprojectwordt aanbevolen, zodat u ook het afstemmen van aangepaste spraak kunt beheren in de Microsoft Foundry-portal. Zie de Documentatie voor het verkrijgen van de project-id voor de REST API. - Stel de vereiste
modelIdeigenschap in op de id van het model waarmee u verbinding wilt maken met het project.
Hier volgt een voorbeeld van een Speech CLI-opdracht die een model verbindt met een project:
spx csr model update --api-version v3.2 --model YourModelId --project YourProjectId
Belangrijk
Je moet iets instellen --api-version v3.2. De Speech CLI maakt gebruik van de REST API, maar biedt nog geen ondersteuning voor versies later dan v3.2.
U ontvangt een antwoordtekst in de volgende indeling:
{
"project": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/ddddeeee-3333-ffff-4444-aaaa5555bbbb"
},
}
Voer de volgende opdracht uit voor Speech CLI-hulp bij modellen:
spx help csr model
Als u een nieuw model wilt verbinden met een project van de Speech-resource waar het model is gekopieerd, gebruikt u de Models_Update bewerking van de Spraak-naar-tekst-REST API. Stel de aanvraagbody samen volgens de volgende instructies:
- Stel de vereiste
projecteigenschap in op de URI van een bestaand project. Deze eigenschap wordt aanbevolen, zodat u het model ook kunt bekijken en beheren in de Microsoft Foundry-portal. Zie de Documentatie voor het verkrijgen van de project-id voor de REST API.
Maak een HTTP PATCH-aanvraag met behulp van de URI, zoals wordt weergegeven in het volgende voorbeeld. Gebruik de URI van het nieuwe model. U kunt de nieuwe model-id ophalen uit de self eigenschap van de responsbody van Models_Copy. Vervang door YourSpeechResoureKey de spraakresourcesleutel, vervang deze door YourServiceRegion uw spraakresourceregio en stel de eigenschappen van de aanvraagbody in zoals eerder beschreven.
curl -v -X PATCH -H "Ocp-Apim-Subscription-Key: YourSpeechResoureKey" -H "Content-Type: application/json" -d '{
"project": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/ddddeeee-3333-ffff-4444-aaaa5555bbbb"
},
}' "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/models"
U ontvangt een antwoordtekst in de volgende indeling:
{
"project": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/ddddeeee-3333-ffff-4444-aaaa5555bbbb"
},
}