Een aangepast spraakproject maken

Aangepaste spraakprojecten bevatten modellen, trainings- en testgegevenssets en implementatie-eindpunten. Elk project is specifiek voor een landinstelling. U kunt bijvoorbeeld een project voor Engels maken in de Verenigde Staten.

Een project maken

Voer de volgende stappen uit om een aangepast spraakproject te maken:

  1. Meld u aan bij Speech Studio.

  2. Selecteer het abonnement en de Spraak-resource waarmee u wilt werken.

    Belangrijk

    Als u een aangepast model traint met audiogegevens, kiest u een spraakresourceregio met toegewezen hardware voor het trainen van audiogegevens. Zie voetnoten in de tabel regio's voor meer informatie.

  3. Selecteer Aangepaste spraak>een nieuw project maken.

  4. Volg de instructies van de wizard om uw project te maken.

Selecteer het nieuwe project op naam of selecteer Ga naar project. U ziet deze menu-items in het linkerdeelvenster: Spraakgegevenssets, Aangepaste modellen trainen, Modellen testen en Modellen implementeren.

Gebruik de spx csr project create opdracht om een project te maken. Bouw de aanvraagparameters volgens de volgende instructies:

  • Stel de vereiste language parameter in. De landinstelling van het project en de ingesloten gegevenssets moeten hetzelfde zijn. De landinstelling kan later niet meer worden gewijzigd. De speech CLI-parameter language komt overeen met de locale eigenschap in de JSON-aanvraag en het antwoord.
  • Stel de vereiste name parameter in. Dit is de naam die wordt weergegeven in Speech Studio. De speech CLI-parameter name komt overeen met de displayName eigenschap in de JSON-aanvraag en het antwoord.

Hier volgt een voorbeeld van een Speech CLI-opdracht waarmee een project wordt gemaakt:

spx csr project create --api-version v3.1 --name "My Project" --description "My Project Description" --language "en-US"

U ontvangt een antwoordtekst in de volgende indeling:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed",
  "links": {
    "evaluations": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/evaluations",
    "datasets": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/datasets",
    "models": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/models",
    "endpoints": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/endpoints",
    "transcriptions": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/transcriptions"       
  },
  "properties": {
    "datasetCount": 0,
    "evaluationCount": 0,
    "modelCount": 0,
    "transcriptionCount": 0,
    "endpointCount": 0
  },
  "createdDateTime": "2022-05-17T22:15:18Z",
  "locale": "en-US",
  "displayName": "My Project",
  "description": "My Project Description"
}

De eigenschap op het hoogste niveau self in de hoofdtekst van het antwoord is de URI van het project. Gebruik deze URI voor meer informatie over de evaluaties, gegevenssets, modellen, eindpunten en transcripties van het project. U gebruikt deze URI ook om een project bij te werken of te verwijderen.

Voer de volgende opdracht uit voor Speech CLI-hulp bij projecten:

spx help csr project

Als u een project wilt maken, gebruikt u de Projects_Create bewerking van de REST API voor spraak naar tekst. Bouw de aanvraagbody volgens de volgende instructies:

  • Stel de vereiste locale eigenschap in. Dit moet de landinstelling van de ingesloten gegevenssets zijn. De landinstelling kan later niet meer worden gewijzigd.
  • Stel de vereiste displayName eigenschap in. Dit is de projectnaam die wordt weergegeven in Speech Studio.

Maak een HTTP POST-aanvraag met behulp van de URI, zoals wordt weergegeven in het volgende Projects_Create voorbeeld. Vervang door YourSubscriptionKey de spraakresourcesleutel, vervang deze door YourServiceRegion uw spraakresourceregio en stel de eigenschappen van de aanvraagbody in zoals eerder beschreven.

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
  "displayName": "My Project",
  "description": "My Project Description",
  "locale": "en-US"
} '  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.1/projects"

U ontvangt een antwoordtekst in de volgende indeling:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed",
  "links": {
    "evaluations": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/evaluations",
    "datasets": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/datasets",
    "models": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/models",
    "endpoints": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/endpoints",
    "transcriptions": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/transcriptions"       
  },
  "properties": {
    "datasetCount": 0,
    "evaluationCount": 0,
    "modelCount": 0,
    "transcriptionCount": 0,
    "endpointCount": 0
  },
  "createdDateTime": "2022-05-17T22:15:18Z",
  "locale": "en-US",
  "displayName": "My Project",
  "description": "My Project Description"
}

De eigenschap op het hoogste niveau self in de hoofdtekst van het antwoord is de URI van het project. Gebruik deze URI voor meer informatie over de evaluaties, gegevenssets, modellen, eindpunten en transcripties van het project. U gebruikt deze URI ook om een project bij te werken of te verwijderen .

Uw model kiezen

Er zijn enkele benaderingen voor het gebruik van aangepaste spraakmodellen:

  • Het basismodel biedt nauwkeurige spraakherkenning in een reeks scenario's. Basismodellen worden periodiek bijgewerkt om de nauwkeurigheid en kwaliteit te verbeteren. Als u basismodellen gebruikt, wordt u aangeraden de meest recente standaardbasismodellen te gebruiken. Als een vereiste aanpassingsmogelijkheid alleen beschikbaar is voor een ouder model, kunt u een ouder basismodel kiezen.
  • Met een aangepast model wordt het basismodel uitgebreid met domeinspecifieke vocabulaire die wordt gedeeld in alle gebieden van het aangepaste domein.
  • Er kunnen meerdere aangepaste modellen worden gebruikt wanneer het aangepaste domein meerdere gebieden heeft, elk met een specifieke woordenlijst.

Een aanbevolen manier om te zien of het basismodel voldoende is om de transcriptie te analyseren die is geproduceerd op basis van het basismodel en dit te vergelijken met een door mensen gegenereerde transcriptie voor dezelfde audio. U kunt de transcripten vergelijken en een WER-score (Word Error Rate) verkrijgen. Als de WER-score hoog is, wordt het trainen van een aangepast model aanbevolen om de onjuist geïdentificeerde woorden te herkennen.

Er worden meerdere modellen aanbevolen als het vocabulaire varieert tussen de domeingebieden. Olympische commentatoren rapporteren bijvoorbeeld over verschillende gebeurtenissen, elk gekoppeld aan een eigen taal. Omdat elke Vocabulaire olympische gebeurtenis aanzienlijk verschilt van anderen, verhoogt het bouwen van een aangepast model dat specifiek is voor een gebeurtenis de nauwkeurigheid door de uitingsgegevens te beperken ten opzichte van die specifieke gebeurtenis. Als gevolg hiervan hoeft het model niet via niet-gerelateerde gegevens te doorzoeken om een overeenkomst te maken. Hoe dan ook, training vereist nog steeds een behoorlijke verscheidenheid aan trainingsgegevens. Neem audio op van verschillende commentatoren met verschillende accenten, geslacht, leeftijd, enzovoort.

Modelstabiliteit en levenscyclus

Een basismodel of aangepast model dat is geïmplementeerd op een eindpunt met behulp van aangepaste spraak, wordt opgelost totdat u besluit het bij te werken. De nauwkeurigheid en kwaliteit van spraakherkenning blijven consistent, zelfs wanneer er een nieuw basismodel wordt vrijgegeven. Hiermee kunt u het gedrag van een specifiek model vergrendelen totdat u besluit een nieuwer model te gebruiken.

Of u nu uw eigen model traint of een momentopname van een basismodel gebruikt, u kunt het model gedurende een beperkte tijd gebruiken. Zie model- en eindpuntlevenscyclus voor meer informatie.

Volgende stappen