Anpassa en talmodell

Artikel
10/09/2024

Kommentar

Anpassning av talmodell, inklusive uttalsträning, stöds endast i Utvärderingskonton för Video Indexer Azure och Resource Manager-konton. Det stöds inte i klassiska konton. Information om hur du uppdaterar din kontotyp utan kostnad finns i Uppdatera ditt Azure AI Video Indexer-konto. Mer information om hur du använder den anpassade språkupplevelsen finns i Anpassa en språkmodell.

Med Azure AI Video Indexer kan du skapa anpassade talmodeller för att anpassa taligenkänning genom att ladda upp datauppsättningar som används för att skapa en talmodell. Den här artikeln går igenom stegen för att göra det via Video Indexer-webbplatsen. Du kan också använda API:et enligt beskrivningen i Anpassa talmodell med hjälp av API.

En detaljerad översikt och metodtips för anpassade talmodeller finns i Anpassa en talmodell med Azure AI Video Indexer.

Förutsättningar

Läs metodtipsguiden för speech-modellträning.
Ett Azure-konto
Ett Azure AI Video Indexer-konto

Webbportal
API

Skapa en datamängd

Eftersom alla anpassade modeller måste innehålla en datauppsättning börjar vi med processen för hur du skapar och hanterar datauppsättningar.

Välj knappen Modellanpassning.
Välj fliken Tal (ny).
Välj Ladda upp datauppsättning.
Välj antingen Oformaterad text eller Uttal från listrutan Datauppsättningstyp . Varje talmodell måste ha en datauppsättning med oformaterad text och kan eventuellt ha en uttalsdatauppsättning.
Välj Bläddra och välj datamängdsfilen. Du kan bara välja en.
Välj ett språk för modellen. Välj det språk som talas i de mediefiler som du planerar att indexera med den här modellen. Namnet på datauppsättningen är ifyllt med namnet på filen, men du kan ändra namnet.
Du kan också lägga till en beskrivning av datamängden. Detta kan vara användbart för att särskilja varje datauppsättning om du förväntar dig att ha flera datauppsättningar.
Välj överför. När datauppsättningen har skapats kan du använda den för att träna och skapa nya modeller.

Granska och uppdatera en datauppsättning

Du kan visa en datauppsättning och dess egenskaper genom att:

Klicka på datauppsättningens namn
Hovra över datauppsättningen
Välja ellipsen

Välj sedan Visa datauppsättning.

Du kan sedan visa namn, beskrivning, språk och status för datamängden plus följande egenskaper:

Antal rader: anger antalet rader som har lästs in av det totala antalet rader i filen. Om hela filen har lästs in matchar siffrorna (till exempel 10 av 10 normaliserade). Om talen inte matchar (till exempel 7 av 10 normaliserade) innebär det att endast några av raderna har lästs in och resten har fel. Vanliga orsaker till fel är formateringsproblem med en rad, till exempel att inte avståndet mellan en flik mellan varje ord i en uttalsfil. Att granska oformaterad text och uttalsdata för träningsartiklar bör vara användbart för att hitta problemet. Om du vill felsöka orsaken läser du felinformationen som finns i rapporten. Välj Visa rapport för att visa felinformationen om de rader som inte lästes in (errorKind). Detta kan också visas genom att välja fliken Rapport .

Datamängds-ID: Varje datauppsättning har ett unikt GUID, vilket behövs när du använder API:et för åtgärder som refererar till datamängden.

Oformaterad text (normaliserad): Detta innehåller den normaliserade texten i den inlästa datamängdsfilen. Normaliserad text är den tolkade texten i oformaterad form utan formatering.

Redigera information: Om du vill redigera en datauppsättnings namn eller beskrivning, när du hovrar över datauppsättningen, väljer du på ellipsen och väljer sedan Redigera information. Sedan kan du redigera datauppsättningens namn och beskrivning.

Kommentar

Data i en datauppsättning kan inte redigeras eller uppdateras när datamängden har laddats upp. Om du behöver redigera eller uppdatera data i en datauppsättning laddar du ned datamängden, utför redigeringarna, sparar filen och laddar upp den nya datamängdsfilen.

Ladda ned: Om du vill ladda ned en datamängdsfil, när du hovrar över datauppsättningen, väljer du på ellipsen och väljer sedan Ladda ned. När du visar datamängden kan du också välja Ladda ned och sedan välja att ladda ned datamängdsfilen eller ladda upp rapporten i JSON-formulär.

Ta bort: Om du vill ta bort en datauppsättning, när du hovrar över datauppsättningen, väljer du på ellipsen och väljer sedan Ta bort.

Skapa en anpassad talmodell

Datauppsättningar används för att skapa och träna modeller. När du har skapat en oformaterad datauppsättning kan du skapa och börja använda en anpassad talmodell.

Tänk på följande när du skapar och använder anpassade talmodeller:

En ny modell måste innehålla minst en oformaterad datauppsättning och kan ha flera oformaterade datauppsättningar.
Det är valfritt att inkludera en uttalsdatauppsättning och inte mer än en kan inkluderas.
När en modell har skapats kan du inte lägga till ytterligare datauppsättningar i den eller utföra några ändringar i dess datauppsättningar. Om du behöver lägga till eller ändra datauppsättningar skapar du en ny modell.
Om du har indexerat en video med en anpassad talmodell och sedan tar bort modellen påverkas inte avskriften om du inte utför en omindexering.
Om du har tagit bort en datauppsättning som användes för att träna en anpassad modell, eftersom talmodellen redan har tränats av datamängden, fortsätter den att använda den tills talmodellen har tagits bort.
Om du tar bort en anpassad modell påverkas den inte av transkriptionen av videor som redan indexerats med hjälp av modellen.

Träna en modell

Kommentar

När en modell har skapats kan datauppsättningar inte läggas till. En modell kan bara innehålla datauppsättningar på samma språk.

Det finns två sätt att träna en modell – via fliken datauppsättning och på fliken Modell.

Träna en modell via fliken Datauppsättningar

Visa listan över datauppsättningar.
Välj en oformaterad datauppsättning. Ikonen Träna ny modell ovan kan sedan väljas.
Välj Träna ny modell.
Ange ett namn för modellen, ett språk och lägg till en beskrivning.
Välj fliken Datauppsättningar
Välj de datauppsättningar som du vill ska ingå i modellen.
Välj Skapa och träna.

Träna en modell via fliken Modeller

Välj fliken Modeller .
Välj ikonen Träna ny modell .
Välj de datauppsättningar som du vill ska ingå i modellen.
Ange ett namn för modellen, ett språk och lägg till en beskrivning.
Välj fliken Datauppsättningar .
Välj de datauppsättningar som du vill ska ingå i modellen.
Välj Skapa och träna.

Granska och uppdatera en modell

Visa modell: Du kan visa en modell och dess egenskaper genom att antingen klicka på modellens namn eller när du hovrar över modellen, klickar på ellipsen och sedan väljer Visa modell.

På fliken Information visas sedan namnet, beskrivningen, språket och statusen för modellen plus följande egenskaper:

Modell-ID: Varje modell har ett unikt GUID som behövs när du använder API:et för åtgärder som refererar till modellen.

Skapades den: Det datum då modellen skapades.

Redigera information: Om du vill redigera en modells namn eller beskrivning, när du hovrar över modellen, väljer du på ellipsen och väljer sedan Redigera information. Sedan kan du redigera modellens namn och beskrivning.

Kommentar

Endast modellens namn och beskrivning kan redigeras. Om du vill göra ändringar i dess datauppsättningar eller lägga till datauppsättningar måste en ny modell skapas.

Ta bort: Om du vill ta bort en modell när du hovrar över datauppsättningen väljer du på ellipsen och väljer sedan Ta bort.

Inkluderade datauppsättningar: Välj på fliken Inkluderade datamängder för att visa modellens datauppsättningar.

Använda en anpassad språkmodell när du indexerar en video

En anpassad språkmodell används inte som standard för indexeringsjobb, så måste väljas under indexuppladdningsprocessen.

Under uppladdningsprocessen väljer du din anpassade språkmodellkälla i den nedrullningsbara menyn för språk .
Välj överför.

Samma steg gäller när du vill indexera om en video med en anpassad modell.

Kommentar

Följande är en tabell med beskrivningar av några av de parametrar som används med talmodellbegäranden:

Namn	Skriv	Beskrivning
`displayName`	sträng	Önskat namn på datamängden/modellen.
`locale`	sträng	Språkkoden för datamängden/modellen. Fullständig lista finns i Språkstöd.
`kind`	integer	0 för en oformaterad datauppsättning, 1 för en uttalsdatauppsättning.
`description`	sträng	Valfri beskrivning av datauppsättningen/modellen.
`contentUrl`	Uri	URL för källfilen som används för att skapa datauppsättningen.
`customProperties`	objekt	Valfria egenskaper för datauppsättning/modell.

Skapa en taldatauppsättning

Begäran Skapa taldatauppsättning skapar en datauppsättning för träning av en talmodell. Ladda upp en fil som används för att skapa en datauppsättning med den här begäran. Det går inte att ändra innehållet i en datauppsättning när den har skapats.

Definiera parametrarna i begärandetexten, inklusive en URL till textfilen som ska laddas upp. Fälten för beskrivning och anpassade egenskaper är valfria. Det här är ett exempel på en begärandetext:

{
    "displayName": "Pronunciation Dataset",
    "locale": "en-US",
    "kind": "Pronunciation",
    "description": "This is a pronunciation dataset.",
    "contentUrl": https://contoso.com/location,
    "customProperties": {
        "tag": "Pronunciation Dataset Example"
    }
}

Exempelsvar

{ 
    "id": "000000-0000-0000-0000-f58ac7002ae9", 
    "properties": { 
        "acceptedLineCount": 0, 
        "rejectedLineCount": 0, 
        "duration": null, 
        "error": null 
    }, 
    "displayName": "Contoso plain text", 
    "description": "VI dataset", 
    "locale": "en-US", 
    "kind": "Language", 
    "status": "Waiting", 
    "lastActionDateTime": "2023-02-28T13:24:27Z", 
    "createdDateTime": "2023-02-28T13:24:27Z", 
    "customProperties": null 
}

Skapa en talmodell

Begäran Skapa talmodell skapar och tränar en anpassad talmodell som kan användas för att förbättra transkriptionsprecisionen för dina videor. Den måste innehålla minst en oformaterad datauppsättning. Det kan också ha uttalsdatauppsättningar. Skapa den med alla relevanta datamängdsfiler som en modells datauppsättningar kan inte läggas till eller uppdateras när den har skapats.

Definiera parametrarna i begärandetexten, inklusive en lista över strängar som datauppsättningen eller datauppsättningarna som modellen ska innehålla. Fälten för beskrivning och anpassade egenskaper är valfria. Det här är ett exempel på en begärandetext:

{
    "displayName": "Contoso Speech Model",
    "locale": "en-US",
    "datasets": ["ff3d2bc4-ab5a-4522-b599-b3d5ba768c75", "87c8962d-1d3c-44e5-a2b2-c696fddb9bae"],
    "description": "Contoso ads example model",
    "customProperties": {
        "tag": "Example Model"
    }
}

Exempelsvar

{ 
    "id": "00000000-0000-0000-0000-85be4454cf", 
    "properties": { 
        "deprecationDates": { 
            "adaptationDateTime": null, 
            "transcriptionDateTime": "2025-04-15T00:00:00Z" 
        }, 
        "error": null 
    }, 
    "displayName": "Contoso speech model", 
    "description": "Contoso speech model for video indexer", 
    "locale": "en-US", 
    "datasets": ["00000000-0000-0000-0000-f58ac7002ae9"], 
    "status": "Processing", 
    "lastActionDateTime": "2023-02-28T13:36:28Z", 
    "createdDateTime": "2023-02-28T13:36:28Z", 
    "customProperties": null 
}

Hämta taldatauppsättning

API:et Get Speech Dataset returnerar information om den angivna datauppsättningen.

Exempelsvar

{ 
    "id": "00000000-0000-0000-0000-f58002ae9", 
    "properties": { 
        "acceptedLineCount": 41, 
        "rejectedLineCount": 0, 
        "duration": null, 
        "error": null 
    }, 
    "displayName": "Contoso plain text", 
    "description": "VI dataset", 
    "locale": "en-US", 
    "kind": "Language", 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-28T13:24:43Z", 
    "createdDateTime": "2023-02-28T13:24:27Z", 
    "customProperties": null 
}

Hämta taldatauppsättningsfiler

Begäran Hämta taldatauppsättningsfiler returnerar filerna och metadata för den angivna datauppsättningen.

Exempelsvar

[{ 
    "datasetId": "00000000-0000-0000-0000-f58ac72a", 
    "fileId": "00000000-0000-0000-0000-cb190769c", 
    "name": "languagedata", 
    "contentUrl": "", 
    "kind": "LanguageData", 
    "createdDateTime": "2023-02-28T13:24:43Z", 
    "properties": { 
        "size": 1517 
    } 
}, { 
    "datasetId": "00000000-0000-0000-0000-f58ac72” 
    "fileId": "00000000-0000-0000-0000-2369192e", 
    "name": "normalized.txt", 
    "contentUrl": "", 
    "kind": "LanguageData", 
    "createdDateTime": "2023-02-28T13:24:43Z", 
    "properties": { 
        "size": 1517 
    } 
}, { 
    "datasetId": "00000000-0000-0000-0000-f58ac7", 
    "fileId": "00000000-0000-0000-0000-05f1e306", 
    "name": "report.json", 
    "contentUrl": "", 
    "kind": "DatasetReport", 
    "createdDateTime": "2023-02-28T13:24:43Z", 
    "properties": { 
        "size": 78 
    } 
}]

Hämta de angivna kontodatauppsättningarna

Begäran Hämta taldatauppsättningar returnerar information om alla angivna kontodatauppsättningar.

Exempelsvar

[{ 
    "id": "00000000-0000-0000-abf5-4dad0f", 
    "properties": { 
        "acceptedLineCount": 41, 
        "rejectedLineCount": 0, 
        "duration": null, 
        "error": null 
    }, 
    "displayName": "test", 
    "description": "string", 
    "locale": "en-US", 
    "kind": "Language", 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-27T08:42:02Z", 
    "createdDateTime": "2023-02-27T08:41:39Z", 
    "customProperties": null 
}]

Hämta den angivna talmodellen

API:et Hämta talmodell returnerar information om den angivna modellen.

Exempelsvar

{ 
    "id": "00000000-0000-0000-0000-5685be445", 
    "properties": { 
        "deprecationDates": { 
            "adaptationDateTime": null, 
            "transcriptionDateTime": "2025-04-15T00:00:00Z" 
        }, 
        "error": null 
    }, 
    "displayName": "Contoso speech model", 
    "description": "Contoso speech model for video indexer", 
    "locale": "en-US", 
    "datasets": ["00000000-0000-0000-0000-f58ac7002"], 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-28T13:36:38Z", 
    "createdDateTime": "2023-02-28T13:36:28Z", 
    "customProperties": null 
}

Hämta de angivna talmodellerna för kontot

API:et Hämta talmodeller returnerar information om alla modeller i det angivna kontot.

Exempelsvar

[{ 
    "id": "00000000-0000-0000-0000-5685be445", 
    "properties": { 
        "deprecationDates": { 
            "adaptationDateTime": null, 
            "transcriptionDateTime": "2025-04-15T00:00:00Z" 
        }, 
        "error": null 
    }, 
    "displayName": "Contoso speech model", 
    "description": "Contoso speech model for video indexer", 
    "locale": "en-US", 
    "datasets": ["00000000-0000-0000-0000-f58ac7002a"], 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-28T13:36:38Z", 
    "createdDateTime": "2023-02-28T13:36:28Z", 
    "customProperties": null 
}]

Ta bort taldatauppsättning

API:et Delete Speech Dataset tar bort den angivna datauppsättningen. Alla modeller som tränats med den borttagna datamängden fortsätter att vara tillgängliga tills modellen har tagits bort. Du kan inte ta bort en datauppsättning när den används för indexering eller träning.

Exempelsvar

Det finns inget returnerat innehåll när datauppsättningen har tagits bort.

Ta bort en talmodell

API:et Ta bort talmodell tar bort den angivna talmodellen. Du kan inte ta bort en modell när den används för indexering eller träning.

Response

Det finns inget returnerat innehåll när talmodellen har tagits bort.

Dela via

Anpassa en talmodell

Förutsättningar

Skapa en datamängd

Granska och uppdatera en datauppsättning

Skapa en anpassad talmodell

Träna en modell

Träna en modell via fliken Datauppsättningar

Träna en modell via fliken Modeller

Granska och uppdatera en modell

Använda en anpassad språkmodell när du indexerar en video

Skapa en taldatauppsättning

Exempelsvar

Skapa en talmodell

Exempelsvar

Hämta taldatauppsättning

Exempelsvar

Hämta taldatauppsättningsfiler

Exempelsvar

Hämta de angivna kontodatauppsättningarna

Exempelsvar

Hämta den angivna talmodellen

Exempelsvar

Hämta de angivna talmodellerna för kontot

Exempelsvar

Ta bort taldatauppsättning

Exempelsvar

Ta bort en talmodell

Response

Feedback

Ytterligare resurser