Dela via


Träna en anpassad talmodell

I den här artikeln får du lära dig hur du tränar en anpassad modell för att förbättra igenkänningsprecisionen från Microsofts basmodell. Taligenkänningens noggrannhet och kvalitet för en anpassad talmodell förblir konsekvent, även när en ny basmodell släpps.

Kommentar

Du betalar för användning av anpassad talmodell och slutpunktsvärd. Du debiteras också för anpassad talmodellträning om basmodellen skapades den 1 oktober 2023 och senare. Du debiteras inte för träning om basmodellen skapades före oktober 2023. Mer information finns i Prissättning för Azure AI Speech och avsnittet Avgift för anpassning i migreringsguiden för tal till text 3.2.

Att träna en modell är vanligtvis en iterativ process. Först väljer du en basmodell som är startpunkten för en ny modell. Du tränar en modell med datauppsättningar som kan innehålla text och ljud, och sedan testar du. Om igenkänningskvaliteten eller noggrannheten inte uppfyller dina krav kan du skapa en ny modell med fler eller ändrade träningsdata och sedan testa igen.

Du kan använda en anpassad modell under en begränsad tid efter att den har tränats. Du måste regelbundet återskapa och anpassa din anpassade modell från den senaste basmodellen för att dra nytta av den förbättrade noggrannheten och kvaliteten. Mer information finns i Livscykel för modell och slutpunkt.

Viktigt!

Om du tränar en anpassad modell med ljuddata väljer du en tjänstresurs i en region med dedikerad maskinvara för att träna ljuddata. När en modell har tränats kan du kopiera den till en AI Foundry-resurs för Speech i en annan region efter behov.

I regioner med dedikerad maskinvara för anpassad talträning använder Speech-tjänsten upp till 100 timmars ljudträningsdata och kan bearbeta cirka 10 timmars data per dag. Mer information finns i fotnoter i regionstabellen.

Skapa en modell

  1. Logga in på Azure AI Foundry-portalen.

  2. Välj Finjustering i det vänstra fönstret och välj sedan AI Service-finjustering.

  3. Välj den anpassade taljusteringsaktiviteten (efter modellnamn) som du startade enligt beskrivningen i artikeln hur du startar finjustering av anpassat tal.

  4. Välj Träna modell>+ Träna modell.

    Skärmbild av sidan med ett alternativ för att börja träna för en anpassad talmodell.

  5. I guiden Träna en ny modell väljer du den basmodell som du vill finjustera. Välj sedan Nästa.

    Skärmbild av sidan med ett alternativ för att välja den basmodell som du vill finjustera.

  6. Välj de data som du vill använda för träning. Välj sedan Nästa.

  7. Ange ett namn och en beskrivning för modellen. Välj sedan Nästa.

  8. Granska inställningarna och välj Träna en ny modell. Du tas tillbaka till sidan Träna modell . Status för data är Bearbetning.

    Skärmbild av sidan som visar status för träningen som bearbetning.

När du har laddat upp träningsdatauppsättningar följer du de här anvisningarna för att börja träna din modell:

  1. Logga in på Speech Studio.

  2. Välj Anpassat tal> Projektnamnet >Träna anpassade modeller.

  3. Välj Träna en ny modell.

  4. På sidan Välj en baslinjemodell väljer du en basmodell och väljer sedan Nästa. Om du inte är säker väljer du den senaste modellen överst i listan. Namnet på basmodellen motsvarar det datum då den släpptes i YYYYMMDD-format. Anpassningsfunktionerna i basmodellen visas i parenteser efter modellnamnet i Speech Studio.

    Viktigt!

    Anteckna förfallodatumet för anpassning . Det här är det sista datumet som du kan använda basmodellen för träning. Mer information finns i Livscykel för modell och slutpunkt.

  5. På sidan Välj data väljer du en eller flera datauppsättningar som du vill använda för träning. Om det inte finns några tillgängliga datauppsättningar avbryter du installationen och går sedan till menyn Taldatauppsättningar för att ladda upp datauppsättningar.

  6. Ange ett namn och en beskrivning för din anpassade modell och välj sedan Nästa.

  7. Du kan också markera kryssrutan Lägg till test i nästa steg . Om du hoppar över det här steget kan du köra samma tester senare. Mer information finns i Testigenkänningskvalitet och Testmodell kvantitativt.

  8. Välj Spara och stäng för att starta bygget för din anpassade modell.

  9. Gå tillbaka till sidan Träna anpassade modeller .

    Viktigt!

    Anteckna förfallodatumet . Det här är det sista datumet som du kan använda din anpassade modell för taligenkänning. Mer information finns i Livscykel för modell och slutpunkt.

Om du vill skapa en modell med datauppsättningar för träning använder du spx csr model create kommandot . Skapa begärandeparametrarna enligt följande instruktioner:

  • project Ange egenskapen till ID för ett befintligt projekt. Den här egenskapen rekommenderas så att du även kan visa och hantera modellen i Azure AI Foundry-portalen. Du kan köra spx csr project list kommandot för att hämta tillgängliga projekt.
  • Ange den obligatoriska dataset egenskapen till ID:t för en datauppsättning som du vill använda för träning. Om du vill ange flera datauppsättningar anger du parametern datasets (plural) och separerar ID:n med ett semikolon.
  • Ange den obligatoriska language egenskapen. Datamängdens nationella inställningar måste matcha projektets nationella inställningar. Språkvarianten kan inte ändras senare. Egenskapen Speech CLI language motsvarar locale egenskapen i JSON-begäran och -svaret.
  • Ange den obligatoriska name egenskapen. Den här parametern är det namn som visas i Azure AI Foundry-portalen. Egenskapen Speech CLI name motsvarar displayName egenskapen i JSON-begäran och -svaret.
  • Du kan också ange egenskapen base . Exempel: --base 5988d691-0893-472c-851e-8e36a0fe7aaf. Om du inte anger baseanvänds standardbasmodellen för nationella inställningar. Egenskapen Speech CLI base motsvarar baseModel egenskapen i JSON-begäran och -svaret.

Här är ett exempel på ett Speech CLI-kommando som skapar en modell med datauppsättningar för träning:

spx csr model create --api-version v3.2 --project YourProjectId --name "My Model" --description "My Model Description" --dataset YourDatasetId --language "en-US"

Kommentar

I det här exemplet base anges inte, så standardbasmodellen för språkvarianten används. Basmodell-URI:n returneras i svaret.

Du bör få en svarstext i följande format:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/9e240dc1-3d2d-4ac9-98ec-1be05ba0e9dd",
  "baseModel": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/5988d691-0893-472c-851e-8e36a0fe7aaf"
  },
  "datasets": [
    {
      "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23"
    }
  ],
  "links": {
    "manifest": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/9e240dc1-3d2d-4ac9-98ec-1be05ba0e9dd/manifest",
    "copy": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/9e240dc1-3d2d-4ac9-98ec-1be05ba0e9dd:copy",
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/9e240dc1-3d2d-4ac9-98ec-1be05ba0e9dd/files"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
  },
  "properties": {
    "deprecationDates": {
      "transcriptionDateTime": "2026-07-15T00:00:00Z"
    },
    "customModelWeightPercent": 30,
    "features": {
      "supportsTranscriptions": true,
      "supportsEndpoints": true,
      "supportsTranscriptionsOnSpeechContainers": false,
      "supportedOutputFormats": [
        "Display",
        "Lexical"
      ]
    }
  },
  "lastActionDateTime": "2024-07-14T21:38:40Z",
  "status": "Running",
  "createdDateTime": "2024-07-14T21:38:40Z",
  "locale": "en-US",
  "displayName": "My Model",
  "description": "My Model Description"
}

Viktigt!

Anteckna datumet i egenskapen adaptationDateTime . Det här är det sista datumet som du kan använda basmodellen för träning. Mer information finns i Livscykel för modell och slutpunkt.

Anteckna datumet i egenskapen transcriptionDateTime . Det här är det sista datumet som du kan använda din anpassade modell för taligenkänning. Mer information finns i Livscykel för modell och slutpunkt.

Egenskapen på den översta nivån self i svarstexten är modellens URI. Använd den här URI:n för att få information om modellens projekt-, manifest- och utfasningsdatum. Du använder också den här URI:n för att uppdatera eller ta bort en modell.

För Hjälp med Speech CLI med modeller kör du följande kommando:

spx help csr model

Om du vill skapa en modell med datauppsättningar för träning använder du den Models_Create åtgärden för REST-API:et Tal till text. Skapa begärandetexten enligt följande instruktioner:

  • project Ange egenskapen till URI för ett befintligt projekt. Den här egenskapen rekommenderas så att du även kan visa och hantera modellen i Azure AI Foundry-portalen. Du kan göra en Projects_List begäran om att få tillgängliga projekt.
  • Ange den obligatoriska datasets egenskapen till URI:n för de datauppsättningar som du vill använda för träning.
  • Ange den obligatoriska locale egenskapen. Modellspråket måste matcha språket för projektet och basmodellen. Språkvarianten kan inte ändras senare.
  • Ange den obligatoriska displayName egenskapen. Den här egenskapen är namnet som visas i Azure AI Foundry-portalen.
  • Du kan också ange egenskapen baseModel . Exempel: "baseModel": {"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/5988d691-0893-472c-851e-8e36a0fe7aaf"}. Om du inte anger baseModelanvänds standardbasmodellen för nationella inställningar.

Gör en HTTP POST-begäran med hjälp av URI:n enligt följande exempel. Ersätt YourSpeechResoureKey med din Speech-resursnyckel, ersätt YourServiceRegion med resursregionen Speech och ange egenskaperna för begärandetexten enligt beskrivningen ovan.

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSpeechResoureKey" -H "Content-Type: application/json" -d '{
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
  },
  "displayName": "My Model",
  "description": "My Model Description",
  "baseModel": null,
  "datasets": [
    {
      "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23"
    }
  ],
  "locale": "en-US"
}'  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/models"

Kommentar

I det här exemplet baseModel anges inte, så standardbasmodellen för språkvarianten används. Basmodell-URI:n returneras i svaret.

Du bör få en svarstext i följande format:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/9e240dc1-3d2d-4ac9-98ec-1be05ba0e9dd",
  "baseModel": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/5988d691-0893-472c-851e-8e36a0fe7aaf"
  },
  "datasets": [
    {
      "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23"
    }
  ],
  "links": {
    "manifest": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/9e240dc1-3d2d-4ac9-98ec-1be05ba0e9dd/manifest",
    "copy": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/9e240dc1-3d2d-4ac9-98ec-1be05ba0e9dd:copy",
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/9e240dc1-3d2d-4ac9-98ec-1be05ba0e9dd/files"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
  },
  "properties": {
    "deprecationDates": {
      "transcriptionDateTime": "2026-07-15T00:00:00Z"
    },
    "customModelWeightPercent": 30,
    "features": {
      "supportsTranscriptions": true,
      "supportsEndpoints": true,
      "supportsTranscriptionsOnSpeechContainers": false,
      "supportedOutputFormats": [
        "Display",
        "Lexical"
      ]
    }
  },
  "lastActionDateTime": "2024-07-14T21:38:40Z",
  "status": "Running",
  "createdDateTime": "2024-07-14T21:38:40Z",
  "locale": "en-US",
  "displayName": "My Model",
  "description": "My Model Description"
}

Viktigt!

Anteckna datumet i egenskapen adaptationDateTime . Det här är det sista datumet som du kan använda basmodellen för träning. Mer information finns i Livscykel för modell och slutpunkt.

Anteckna datumet i egenskapen transcriptionDateTime . Det här är det sista datumet som du kan använda din anpassade modell för taligenkänning. Mer information finns i Livscykel för modell och slutpunkt.

Egenskapen på den översta nivån self i svarstexten är modellens URI. Använd den här URI:n för att information om modellens projekt-, manifest- och utfasningsdatum. Du använder också den här URI:n för att uppdatera eller ta bort modellen.

Kopiera en modell

Du kan kopiera en modell till ett annat projekt som använder samma nationella inställningar. När en modell till exempel har tränats med ljuddata i en region med dedikerad maskinvara för träning kan du kopiera den till en AI Foundry-resurs för Speech i en annan region efter behov.

Följ dessa instruktioner för att kopiera en modell till ett projekt i en annan region:

  1. Logga in på Speech Studio.
  2. Välj Anpassat tal> Projektnamnet >Träna anpassade modeller.
  3. Välj Kopiera till.
  4. På sidan Kopiera talmodell väljer du en målregion där du vill kopiera modellen. Skärmbild av en fraslista som används i Speech Studio.
  5. Välj en AI Foundry-resurs för Speech i målregionen eller skapa en ny Speech-resurs.
  6. Välj ett projekt där du vill kopiera modellen eller skapa ett nytt projekt.
  7. Välj kopiera.

När modellen har kopierats meddelas du och kan visa den i målprojektet.

Kopiering av en modell direkt till ett projekt i en annan region stöds inte med Speech CLI. Du kan kopiera en modell till ett projekt i en annan region med hjälp av Azure AI Foundry-portalen, Speech Studio eller Speech to text REST API.

Om du vill kopiera en modell till en annan Speech-resurs använder du den Models_Copy åtgärden för REST-API:et Tal till text. Skapa begärandetexten enligt följande instruktioner:

  • Ange den obligatoriska targetSubscriptionKey egenskapen till nyckeln för målresursen Tal.

Gör en HTTP POST-begäran med hjälp av URI:n enligt följande exempel. Använd regionen och URI:n för den modell som du vill kopiera från. Ersätt YourModelId med modell-ID:t, ersätt YourSpeechResoureKey med din Speech-resursnyckel, ersätt YourServiceRegion med resursregionen Speech och ange egenskaperna för begärandetexten enligt beskrivningen ovan.

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSpeechResoureKey" -H "Content-Type: application/json" -d '{
  "targetSubscriptionKey": "ModelDestinationSpeechResourceKey"
} '  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/models/YourModelId:copy"

Kommentar

Endast egenskapen targetSubscriptionKey i begärandetexten innehåller information om målresursen Tal.

Du bör få en svarstext i följande format:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/9df35ddb-edf9-4e91-8d1a-576d09aabdae",
  "baseModel": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/eb5450a7-3ca2-461a-b2d7-ddbb3ad96540"
  },
  "links": {
    "manifest": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/9df35ddb-edf9-4e91-8d1a-576d09aabdae/manifest",
    "copy": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/9df35ddb-edf9-4e91-8d1a-576d09aabdae:copy"
  },
  "properties": {
    "deprecationDates": {
      "adaptationDateTime": "2023-01-15T00:00:00Z",
      "transcriptionDateTime": "2024-07-15T00:00:00Z"
    }
  },
  "lastActionDateTime": "2022-05-22T23:15:27Z",
  "status": "NotStarted",
  "createdDateTime": "2022-05-22T23:15:27Z",
  "locale": "en-US",
  "displayName": "My Model",
  "description": "My Model Description",
  "customProperties": {
    "PortalAPIVersion": "3",
    "Purpose": "",
    "VadKind": "None",
    "ModelClass": "None",
    "UsesHalide": "False",
    "IsDynamicGrammarSupported": "False"
  }
}

Ansluta en modell

Modeller kan ha kopierats från ett projekt med hjälp av Speech CLI eller REST API, utan att vara anslutna till ett annat projekt. Att ansluta en modell handlar om att uppdatera modellen med en referens till projektet.

Om du uppmanas att göra det i Speech Studio kan du ansluta dem genom att välja knappen Anslut .

Skärmbild av sidan Anslut utbildning som visar modeller som kan anslutas till det aktuella projektet.

Om du vill ansluta en modell till ett projekt använder du spx csr model update kommandot . Skapa begärandeparametrarna enligt följande instruktioner:

  • project Ange egenskapen till URI för ett befintligt projekt. Den här egenskapen rekommenderas så att du även kan visa och hantera modellen i Azure AI Foundry-portalen. Du kan köra spx csr project list kommandot för att hämta tillgängliga projekt.
  • Ange den obligatoriska modelId egenskapen till ID:t för den modell som du vill ansluta till projektet.

Här är ett exempel på ett Speech CLI-kommando som ansluter en modell till ett projekt:

spx csr model update --api-version v3.2 --model YourModelId --project YourProjectId

Du bör få en svarstext i följande format:

{
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
  },
}

För Hjälp med Speech CLI med modeller kör du följande kommando:

spx help csr model

Om du vill ansluta en ny modell till ett projekt för talresursen där modellen kopierades använder du den Models_Update åtgärden i REST API:et Tal till text. Skapa begärandetexten enligt följande instruktioner:

  • Ange den obligatoriska project egenskapen till URI:n för ett befintligt projekt. Den här egenskapen rekommenderas så att du även kan visa och hantera modellen i Azure AI Foundry-portalen. Du kan göra en Projects_List begäran om att få tillgängliga projekt.

Gör en HTTP PATCH-begäran med hjälp av URI:n enligt följande exempel. Använd URI:n för den nya modellen. Du kan hämta det nya modell-ID:t från self egenskapen för Models_Copy svarstext. Ersätt YourSpeechResoureKey med din Speech-resursnyckel, ersätt YourServiceRegion med resursregionen Speech och ange egenskaperna för begärandetexten enligt beskrivningen ovan.

curl -v -X PATCH -H "Ocp-Apim-Subscription-Key: YourSpeechResoureKey" -H "Content-Type: application/json" -d '{
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
  },
}'  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/models"

Du bör få en svarstext i följande format:

{
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
  },
}

Nästa steg