Een spraakmodel aanpassen

Artikel
10/09/2024

Notitie

Aanpassing van spraakmodel, inclusief uitspraaktraining, wordt alleen ondersteund in proefversies van Video Indexer Azure en Resource Manager-accounts. Het wordt niet ondersteund in klassieke accounts. Zie het Azure AI Video Indexer-account bijwerken voor hulp bij het bijwerken van uw accounttype zonder kosten. Zie Een taalmodel aanpassen voor hulp bij het gebruik van de aangepaste taalervaring.

Met Azure AI Video Indexer kunt u aangepaste spraakmodellen maken om spraakherkenning aan te passen door gegevenssets te uploaden die worden gebruikt om een spraakmodel te maken. Dit artikel doorloopt de stappen om dit te doen via de Video Indexer-website. U kunt ook de API gebruiken, zoals beschreven in Spraakmodel aanpassen met behulp van API.

Zie Een spraakmodel aanpassen met Azure AI Video Indexer voor een gedetailleerd overzicht en aanbevolen procedures voor aangepaste spraakmodellen.

Vereisten

Lees de handleiding met aanbevolen procedures voor spraakmodeltraining.
Een Azure-account
Een Azure AI Video Indexer-account

Webportal
API

Een gegevensset maken

Aangezien alle aangepaste modellen een gegevensset moeten bevatten, beginnen we met het proces voor het maken en beheren van gegevenssets.

Selecteer de knop Modelaanpassing .
Selecteer het tabblad Spraak (nieuw).
Selecteer Gegevensset uploaden.
Selecteer tekst zonder opmaak of uitspraak in het vervolgkeuzemenu Gegevenssettype. Elk spraakmodel moet een gegevensset voor tekst zonder opmaak hebben en kan desgewenst een uitspraakgegevensset hebben.
Selecteer Bladeren en selecteer het gegevenssetbestand. U kunt er slechts één kiezen.
Selecteer een taal voor het model. Kies de taal die wordt gesproken in de mediabestanden die u wilt indexeren met dit model. De naam van de gegevensset wordt vooraf ingevuld met de naam van het bestand, maar u kunt de naam wijzigen.
U kunt desgewenst een beschrijving van de gegevensset toevoegen. Dit kan handig zijn om elke gegevensset te onderscheiden als u verwacht meerdere gegevenssets te hebben.
Selecteer Uploaden. Wanneer het maken van de gegevensset is voltooid, kunt u deze gebruiken voor het trainen en maken van nieuwe modellen.

Een gegevensset controleren en bijwerken

U kunt een gegevensset en de eigenschappen ervan weergeven door:

Klikken op de naam van de gegevensset
De muisaanwijzer over de gegevensset bewegen
Het beletselteken selecteren

Selecteer vervolgens Gegevensset weergeven.

Vervolgens kunt u de naam, beschrijving, taal en status van de gegevensset en de volgende eigenschappen bekijken:

Aantal regels: geeft het aantal regels aan dat het totale aantal regels in het bestand is geladen. Als het hele bestand is geladen, komen de getallen overeen (bijvoorbeeld 10 van 10 genormaliseerd). Als de getallen niet overeenkomen (bijvoorbeeld 7 van 10 genormaliseerd), betekent dit dat slechts enkele regels zijn geladen en dat de rest fouten had. Veelvoorkomende oorzaken van fouten zijn opmaakproblemen met een regel, zoals het niet verdelen van een tabblad tussen elk woord in een uitspraakbestand. Het controleren van de tekst zonder opmaak en uitspraakgegevens voor trainingsartikelen moet nuttig zijn bij het vinden van het probleem. Als u de oorzaak wilt oplossen, bekijkt u de foutdetails die zijn opgenomen in het rapport. Selecteer Rapport weergeven om de foutdetails te bekijken met betrekking tot de regels die niet zijn geladen (errorKind). U kunt dit ook bekijken door het tabblad Rapport te selecteren.

Gegevensset-id: elke gegevensset heeft een unieke GUID, die nodig is bij het gebruik van de API voor bewerkingen die verwijzen naar de gegevensset.

Tekst zonder opmaak (genormaliseerd): dit bevat de genormaliseerde tekst van het geladen gegevenssetbestand. Genormaliseerde tekst is de herkende tekst in tekst zonder opmaak.

Details bewerken: Als u de naam of beschrijving van een gegevensset wilt bewerken, selecteert u bij het aanwijzen van de gegevensset het beletselteken en selecteert u Vervolgens Details bewerken. Vervolgens kunt u de naam en beschrijving van de gegevensset bewerken.

Notitie

De gegevens in een gegevensset kunnen niet worden bewerkt of bijgewerkt zodra de gegevensset is geüpload. Als u de gegevens in een gegevensset wilt bewerken of bijwerken, downloadt u de gegevensset, voert u de bewerkingen uit, slaat u het bestand op en uploadt u het nieuwe gegevenssetbestand.

Download: Als u een gegevenssetbestand wilt downloaden, selecteert u bij het aanwijzen van de gegevensset het beletselteken en selecteert u Downloaden. Als u de gegevensset bekijkt, kunt u ook Downloaden selecteren en vervolgens de optie hebben om het gegevenssetbestand of het uploadrapport te downloaden in het JSON-formulier.

Verwijderen: Als u een gegevensset wilt verwijderen, selecteert u bij het aanwijzen van de gegevensset het beletselteken en selecteert u Vervolgens Verwijderen.

Een aangepast spraakmodel maken

Gegevenssets worden gebruikt bij het maken en trainen van modellen. Zodra u een gegevensset met tekst zonder opmaak hebt gemaakt, kunt u een aangepast spraakmodel maken en gebruiken.

Houd rekening met het volgende bij het maken en gebruiken van aangepaste spraakmodellen:

Een nieuw model moet ten minste één gegevensset voor tekst zonder opmaak bevatten en kan meerdere gegevenssets voor tekst zonder opmaak bevatten.
Het is optioneel om een uitspraakgegevensset op te nemen en er kan niet meer dan één worden opgenomen.
Zodra een model is gemaakt, kunt u er geen extra gegevenssets aan toevoegen of wijzigingen aan de gegevenssets uitvoeren. Als u gegevenssets wilt toevoegen of wijzigen, maakt u een nieuw model.
Als u een video hebt geïndexeerd met behulp van een aangepast spraakmodel en vervolgens het model verwijdert, wordt het transcript niet beïnvloed, tenzij u een herindex uitvoert.
Als u een gegevensset hebt verwijderd die is gebruikt om een aangepast model te trainen, omdat het spraakmodel al is getraind door de gegevensset, blijft deze gebruiken totdat het spraakmodel wordt verwijderd.
Als u een aangepast model verwijdert, heeft dit geen invloed op de transcriptie van video's die al zijn geïndexeerd met behulp van het model.

Een model trainen

Notitie

Zodra een model is gemaakt, kunnen gegevenssets niet worden toegevoegd. Een model kan alleen gegevenssets van dezelfde taal bevatten.

Er zijn twee manieren om een model te trainen: via het tabblad Gegevensset en via het tabblad Model.

Een model trainen via het tabblad Gegevenssets

Bekijk de lijst met gegevenssets.
Selecteer een gegevensset met tekst zonder opmaak. Het pictogram Nieuw model trainen hierboven kan vervolgens worden geselecteerd.
Selecteer Nieuw model trainen.
Voer een naam in voor het model, een taal en voeg eventueel een beschrijving toe.
Selecteer het tabblad Gegevenssets
Selecteer de gegevenssets die u wilt opnemen in het model.
Selecteer Maken en trainen.

Een model trainen via het tabblad Modellen

Selecteer het tabblad Modellen .
Selecteer het pictogram Nieuw model trainen.
Selecteer de gegevenssets waarvan u deel wilt uitmaken van het model.
Voer een naam in voor het model, een taal en voeg eventueel een beschrijving toe.
Selecteer het tabblad Gegevenssets.
Selecteer de gegevenssets die u wilt opnemen in het model.
Selecteer Maken en trainen.

Een model controleren en bijwerken

Model weergeven: u kunt een model en de eigenschappen ervan bekijken door op de naam van het model te klikken of door de muisaanwijzer over het model te bewegen, op het beletselteken te klikken en vervolgens Model weergeven te selecteren.

U ziet vervolgens op het tabblad Details de naam, beschrijving, taal en status van het model plus de volgende eigenschappen:

Model-id: elk model heeft een unieke GUID, die nodig is bij het gebruik van de API voor bewerkingen die verwijzen naar het model.

Gemaakt op: De datum waarop het model is gemaakt.

Details bewerken: Als u de naam of beschrijving van een model wilt bewerken, selecteert u bij het aanwijzen van de muisaanwijzer op het beletselteken en selecteert u Details bewerken. Vervolgens kunt u de naam en beschrijving van het model bewerken.

Notitie

Alleen de naam en beschrijving van het model kunnen worden bewerkt. Als u wijzigingen wilt aanbrengen in de gegevenssets of gegevenssets wilt toevoegen, moet er een nieuw model worden gemaakt.

Verwijderen: Als u een model wilt verwijderen, selecteert u bij het aanwijzen van de gegevensset het beletselteken en selecteert u Vervolgens Verwijderen.

Opgenomen gegevenssets: selecteer op het tabblad Opgenomen gegevenssets om de gegevenssets van het model weer te geven.

Een aangepast taalmodel gebruiken bij het indexeren van een video

Een aangepast taalmodel wordt niet standaard gebruikt voor het indexeren van taken, dus moet worden geselecteerd tijdens het uploadproces van de index.

Selecteer tijdens het uploadproces de bron van het aangepaste taalmodel in de vervolgkeuzelijst taal .
Selecteer Uploaden.

Dezelfde stappen zijn van toepassing wanneer u een video opnieuw wilt indexeren met een aangepast model.

Notitie

Hier volgt een tabel met beschrijvingen van enkele van de parameters die worden gebruikt met de aanvragen van het spraakmodel:

Naam	Typ	Beschrijving
`displayName`	snaar	De gewenste naam van de gegevensset/het model.
`locale`	snaar	De taalcode van de gegevensset/het model. Zie Taalondersteuning voor een volledige lijst.
`kind`	geheel getal	0 voor een gegevensset met tekst zonder opmaak, 1 voor een uitspraakgegevensset.
`description`	snaar	Optionele beschrijving van de gegevensset/het model.
`contentUrl`	Uri	URL van het bronbestand dat wordt gebruikt bij het maken van een gegevensset.
`customProperties`	object	Optionele eigenschappen van gegevensset/model.

Een spraakgegevensset maken

Met de aanvraag Speech Dataset maken wordt een gegevensset gemaakt voor het trainen van een spraakmodel. Upload een bestand dat wordt gebruikt om een gegevensset te maken met deze aanvraag. De inhoud van een gegevensset kan niet worden gewijzigd nadat deze is gemaakt.

Definieer de parameters in de aanvraagbody, inclusief een URL naar het tekstbestand dat moet worden geüpload. De velden beschrijving en aangepaste eigenschappen zijn optioneel. Dit is een voorbeeld van een aanvraagbody:

{
    "displayName": "Pronunciation Dataset",
    "locale": "en-US",
    "kind": "Pronunciation",
    "description": "This is a pronunciation dataset.",
    "contentUrl": https://contoso.com/location,
    "customProperties": {
        "tag": "Pronunciation Dataset Example"
    }
}

Voorbeeld van een antwoord

{ 
    "id": "000000-0000-0000-0000-f58ac7002ae9", 
    "properties": { 
        "acceptedLineCount": 0, 
        "rejectedLineCount": 0, 
        "duration": null, 
        "error": null 
    }, 
    "displayName": "Contoso plain text", 
    "description": "VI dataset", 
    "locale": "en-US", 
    "kind": "Language", 
    "status": "Waiting", 
    "lastActionDateTime": "2023-02-28T13:24:27Z", 
    "createdDateTime": "2023-02-28T13:24:27Z", 
    "customProperties": null 
}

Een spraakmodel maken

De aanvraag Spraakmodel maken maakt en traint een aangepast spraakmodel dat kan worden gebruikt om de transcriptienauwkeurigheid van uw video's te verbeteren. Deze moet ten minste één gegevensset voor tekst zonder opmaak bevatten. Het kan desgewenst uitspraakgegevenssets hebben. Maak deze met alle relevante gegevenssetbestanden als gegevenssets van een model, kan niet worden toegevoegd of bijgewerkt nadat het is gemaakt.

Definieer de parameters in de aanvraagbody, inclusief een lijst met tekenreeksen die door de gegevensset of gegevenssets voor het model moeten worden opgenomen. De velden beschrijving en aangepaste eigenschappen zijn optioneel. Dit is een voorbeeld van een aanvraagbody:

{
    "displayName": "Contoso Speech Model",
    "locale": "en-US",
    "datasets": ["ff3d2bc4-ab5a-4522-b599-b3d5ba768c75", "87c8962d-1d3c-44e5-a2b2-c696fddb9bae"],
    "description": "Contoso ads example model",
    "customProperties": {
        "tag": "Example Model"
    }
}

Voorbeeld van een antwoord

{ 
    "id": "00000000-0000-0000-0000-85be4454cf", 
    "properties": { 
        "deprecationDates": { 
            "adaptationDateTime": null, 
            "transcriptionDateTime": "2025-04-15T00:00:00Z" 
        }, 
        "error": null 
    }, 
    "displayName": "Contoso speech model", 
    "description": "Contoso speech model for video indexer", 
    "locale": "en-US", 
    "datasets": ["00000000-0000-0000-0000-f58ac7002ae9"], 
    "status": "Processing", 
    "lastActionDateTime": "2023-02-28T13:36:28Z", 
    "createdDateTime": "2023-02-28T13:36:28Z", 
    "customProperties": null 
}

Spraakgegevensset ophalen

De GET Speech Dataset-API retourneert informatie over de opgegeven gegevensset.

Voorbeeld van een antwoord

{ 
    "id": "00000000-0000-0000-0000-f58002ae9", 
    "properties": { 
        "acceptedLineCount": 41, 
        "rejectedLineCount": 0, 
        "duration": null, 
        "error": null 
    }, 
    "displayName": "Contoso plain text", 
    "description": "VI dataset", 
    "locale": "en-US", 
    "kind": "Language", 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-28T13:24:43Z", 
    "createdDateTime": "2023-02-28T13:24:27Z", 
    "customProperties": null 
}

Bestanden met spraakgegevenssets ophalen

De aanvraag Spraakgegevenssetbestanden ophalen retourneert de bestanden en metagegevens van de opgegeven gegevensset.

Voorbeeld van een antwoord

[{ 
    "datasetId": "00000000-0000-0000-0000-f58ac72a", 
    "fileId": "00000000-0000-0000-0000-cb190769c", 
    "name": "languagedata", 
    "contentUrl": "", 
    "kind": "LanguageData", 
    "createdDateTime": "2023-02-28T13:24:43Z", 
    "properties": { 
        "size": 1517 
    } 
}, { 
    "datasetId": "00000000-0000-0000-0000-f58ac72” 
    "fileId": "00000000-0000-0000-0000-2369192e", 
    "name": "normalized.txt", 
    "contentUrl": "", 
    "kind": "LanguageData", 
    "createdDateTime": "2023-02-28T13:24:43Z", 
    "properties": { 
        "size": 1517 
    } 
}, { 
    "datasetId": "00000000-0000-0000-0000-f58ac7", 
    "fileId": "00000000-0000-0000-0000-05f1e306", 
    "name": "report.json", 
    "contentUrl": "", 
    "kind": "DatasetReport", 
    "createdDateTime": "2023-02-28T13:24:43Z", 
    "properties": { 
        "size": 78 
    } 
}]

De opgegeven accountgegevenssets ophalen

De aanvraag Spraakgegevenssets ophalen retourneert informatie over alle opgegeven accountgegevenssets.

Voorbeeld van een antwoord

[{ 
    "id": "00000000-0000-0000-abf5-4dad0f", 
    "properties": { 
        "acceptedLineCount": 41, 
        "rejectedLineCount": 0, 
        "duration": null, 
        "error": null 
    }, 
    "displayName": "test", 
    "description": "string", 
    "locale": "en-US", 
    "kind": "Language", 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-27T08:42:02Z", 
    "createdDateTime": "2023-02-27T08:41:39Z", 
    "customProperties": null 
}]

Het opgegeven spraakmodel ophalen

De Get Speech Model-API retourneert informatie over het opgegeven model.

Voorbeeld van een antwoord

{ 
    "id": "00000000-0000-0000-0000-5685be445", 
    "properties": { 
        "deprecationDates": { 
            "adaptationDateTime": null, 
            "transcriptionDateTime": "2025-04-15T00:00:00Z" 
        }, 
        "error": null 
    }, 
    "displayName": "Contoso speech model", 
    "description": "Contoso speech model for video indexer", 
    "locale": "en-US", 
    "datasets": ["00000000-0000-0000-0000-f58ac7002"], 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-28T13:36:38Z", 
    "createdDateTime": "2023-02-28T13:36:28Z", 
    "customProperties": null 
}

De opgegeven spraakmodellen voor accounts ophalen

De GET Speech Models-API retourneert informatie over alle modellen in het opgegeven account.

Voorbeeld van een antwoord

[{ 
    "id": "00000000-0000-0000-0000-5685be445", 
    "properties": { 
        "deprecationDates": { 
            "adaptationDateTime": null, 
            "transcriptionDateTime": "2025-04-15T00:00:00Z" 
        }, 
        "error": null 
    }, 
    "displayName": "Contoso speech model", 
    "description": "Contoso speech model for video indexer", 
    "locale": "en-US", 
    "datasets": ["00000000-0000-0000-0000-f58ac7002a"], 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-28T13:36:38Z", 
    "createdDateTime": "2023-02-28T13:36:28Z", 
    "customProperties": null 
}]

Spraakgegevensset verwijderen

Met de API Speech Dataset verwijderen wordt de opgegeven gegevensset verwijderd. Elk model dat is getraind met de verwijderde gegevensset, blijft beschikbaar totdat het model wordt verwijderd. U kunt een gegevensset niet verwijderen terwijl deze wordt gebruikt voor indexering of training.

Voorbeeld van een antwoord

Er is geen geretourneerde inhoud wanneer de gegevensset is verwijderd.

Een spraakmodel verwijderen

Met de SPEECH Model-API verwijderen wordt het opgegeven spraakmodel verwijderd. U kunt een model niet verwijderen terwijl het wordt gebruikt voor indexering of training.

Respons

Er is geen geretourneerde inhoud wanneer het spraakmodel is verwijderd.

Delen via

Een spraakmodel aanpassen

Vereisten

Een gegevensset maken

Een gegevensset controleren en bijwerken

Een aangepast spraakmodel maken

Een model trainen

Een model trainen via het tabblad Gegevenssets

Een model trainen via het tabblad Modellen

Een model controleren en bijwerken

Een aangepast taalmodel gebruiken bij het indexeren van een video

Een spraakgegevensset maken

Voorbeeld van een antwoord

Een spraakmodel maken

Voorbeeld van een antwoord

Spraakgegevensset ophalen

Voorbeeld van een antwoord

Bestanden met spraakgegevenssets ophalen

Voorbeeld van een antwoord

De opgegeven accountgegevenssets ophalen

Voorbeeld van een antwoord

Het opgegeven spraakmodel ophalen

Voorbeeld van een antwoord

De opgegeven spraakmodellen voor accounts ophalen

Voorbeeld van een antwoord

Spraakgegevensset verwijderen

Voorbeeld van een antwoord

Een spraakmodel verwijderen

Respons

Feedback

Aanvullende resources