Přizpůsobení modelu řeči

Článek
10/09/2024

Poznámka:

Přizpůsobení modelu řeči, včetně trénování výslovnosti, se podporuje jenom ve zkušebních účtech Azure Video Indexeru a účtech Resource Manageru. Nepodporuje se v klasických účtech. Pokyny k aktualizaci typu účtu bez poplatků najdete v tématu Aktualizace účtu Azure AI Video Indexer. Pokyny k používání vlastního jazyka najdete v tématu Přizpůsobení jazykového modelu.

Azure AI Video Indexer umožňuje vytvářet vlastní modely řeči pro přizpůsobení rozpoznávání řeči nahráním datových sad, které se používají k vytvoření modelu řeči. Tento článek popisuje kroky, které je potřeba provést prostřednictvím webu Video Indexer. Můžete také použít rozhraní API, jak je popsáno v tématu Přizpůsobení modelu řeči pomocí rozhraní API.

Podrobný přehled a osvědčené postupy pro vlastní modely řeči najdete v tématu Přizpůsobení modelu řeči pomocí Azure AI Video Indexeru.

Požadavky

Přečtěte si průvodce osvědčenými postupy trénování modelu speech.
Účet Azure
Účet Azure AI Video Indexeru

Webový portál
Rozhraní API

Vytvoření datové sady

Protože všechny vlastní modely musí obsahovat datovou sadu, začneme procesem vytváření a správy datových sad.

Vyberte tlačítko Přizpůsobení modelu.
Vyberte kartu Speech (nový).
Vyberte Nahrát datovou sadu.
V rozevírací nabídce Typ datové sady vyberte prostý text nebo výslovnost. Každý model řeči musí mít datovou sadu prostého textu a volitelně může mít datovou sadu výslovnosti.
Vyberte Procházet a vyberte soubor datové sady. Můžete zvolit jenom jednu.
Vyberte jazyk modelu. Zvolte jazyk, který se mluví v mediálních souborech, které plánujete indexovat pomocí tohoto modelu. Název datové sady je předem vyplněný názvem souboru, ale název můžete upravit.
Volitelně můžete přidat popis datové sady. To může být užitečné k rozlišení každé datové sady, pokud očekáváte, že bude mít více datových sad.
Vyberte Odeslat. Po dokončení vytváření datové sady ji můžete použít k trénování a vytváření nových modelů.

Kontrola a aktualizace datové sady

Datovou sadu a její vlastnosti můžete zobrazit pomocí:

Kliknutí na název datové sady
Najetím myší na datovou sadu
Výběr tří teček

Pak vyberte Zobrazit datovou sadu.

Potom můžete zobrazit název, popis, jazyk a stav datové sady a následující vlastnosti:

Počet řádků: označuje počet řádků, které byly úspěšně načteny z celkového počtu řádků v souboru. Pokud se celý soubor úspěšně načte, budou se čísla shodovat (například 10 z 10 normalizovaných). Pokud se čísla neshoduje (například 7 z 10 normalizovaných), znamená to, že se úspěšně načetly jenom některé řádky a zbytek měl chyby. Běžnými příčinami chyb jsou problémy s formátováním čáry, například nezařazení tabulátoru mezi jednotlivými slovy v souboru výslovnosti. Při hledání problému by mělo být užitečné zkontrolovat prostý text a výslovnost dat pro články školení. Pokud chcete vyřešit příčinu, projděte si podrobnosti o chybě, které jsou obsaženy v sestavě. Výběrem možnosti Zobrazit sestavu zobrazíte podrobnosti o chybě týkající se řádků, které se úspěšně nenačetly (errorKind). Můžete ho také zobrazit výběrem karty Sestava .

ID datové sady: Každá datová sada má jedinečný identifikátor GUID, který je potřeba při použití rozhraní API pro operace, které odkazují na datovou sadu.

Prostý text (normalizovaný):: Obsahuje normalizovaný text načteného souboru datové sady. Normalizovaný text je rozpoznaný text ve formátu prostého formátu bez formátování.

Upravit podrobnosti: Pokud chcete upravit název nebo popis datové sady, vyberte při najetí myší na datovou sadu tři tečky a pak vyberte Upravit podrobnosti. Pak můžete upravit název a popis datové sady.

Poznámka:

Data v datové sadě se po nahrání datové sady nedají upravovat ani aktualizovat. Pokud potřebujete upravit nebo aktualizovat data v datové sadě, stáhněte si datovou sadu, proveďte úpravy, uložte soubor a nahrajte nový soubor datové sady.

Stažení: Pokud chcete stáhnout soubor datové sady, vyberte při najetí myší na datovou sadu tři tečky a pak vyberte Stáhnout. Případně můžete při prohlížení datové sady vybrat Možnost Stáhnout a pak si můžete stáhnout soubor datové sady nebo nahrát sestavu ve formuláři JSON.

Odstranění: Pokud chcete odstranit datovou sadu, vyberte při najetí myší na datovou sadu tři tečky a pak vyberte Odstranit.

Vytvoření vlastního modelu řeči

Datové sady se používají při vytváření a trénování modelů. Jakmile vytvoříte datovou sadu prostého textu, můžete vytvořit a začít používat vlastní model řeči.

Při vytváření a používání vlastních modelů řeči mějte na paměti následující skutečnosti:

Nový model musí obsahovat alespoň jednu datovou sadu prostého textu a může mít několik datových sad prostého textu.
Je volitelné zahrnout datovou sadu výslovnosti a není možné zahrnout více než jednu datovou sadu.
Po vytvoření modelu do něj nemůžete přidat další datové sady ani provádět žádné úpravy datových sad. Pokud potřebujete přidat nebo upravit datové sady, vytvořte nový model.
Pokud jste video indexovali pomocí vlastního modelu řeči a pak model odstranili, nebude přepis ovlivněn, pokud neprovedete přeindexování.
Pokud jste odstranili datovou sadu, která byla použita k trénování vlastního modelu, protože už je model řeči natrénovaný datovou sadou, bude ji dál používat, dokud se model řeči odstraní.
Pokud odstraníte vlastní model, nemá to žádný vliv na přepis videí, která už byla indexována pomocí modelu.

Učení modelu

Poznámka:

Po vytvoření modelu se datové sady nedají přidat. Model může obsahovat pouze datové sady stejného jazyka.

Model můžete trénovat dvěma způsoby – prostřednictvím karty datové sady a karty modelu.

Trénování modelu prostřednictvím karty Datové sady

Zobrazte seznam datových sad.
Vyberte datovou sadu prostého textu. Potom můžete vybrat ikonu Trénovat nový model výše.
Vyberte Trénovat nový model.
Zadejte název modelu, jazyka a volitelně přidejte popis.
Výběr karty Datové sady
Vyberte datové sady, které chcete zahrnout do modelu.
Vyberte Vytvořit a trénovat.

Trénování modelu prostřednictvím karty Modely

Vyberte kartu Modely.
Vyberte Ikonu Trénování nového modelu .
Vyberte datové sady, které chcete být součástí modelu.
Zadejte název modelu, jazyka a volitelně přidejte popis.
Vyberte kartu Datové sady.
Vyberte datové sady, které chcete zahrnout do modelu.
Vyberte Vytvořit a trénovat.

Kontrola a aktualizace modelu

Zobrazit model: Model a jeho vlastnosti můžete zobrazit tak, že kliknete na název modelu nebo na něj najedete myší, kliknete na tři tečky a vyberete Zobrazit model.

Na kartě Podrobnosti se pak zobrazí název, popis, jazyk a stav modelu a následující vlastnosti:

ID modelu: Každý model má jedinečný identifikátor GUID, který je potřeba při použití rozhraní API pro operace, které odkazují na model.

Vytvořeno: Datum vytvoření modelu.

Upravit podrobnosti: Pokud chcete upravit název nebo popis modelu, vyberte při najetí myší na model tři tečky a pak vyberte Upravit podrobnosti. Pak můžete upravit název a popis modelu.

Poznámka:

Je možné upravit pouze název a popis modelu. Pokud chcete provést jakékoli změny v datových sadách nebo přidat datové sady, je potřeba vytvořit nový model.

Odstranění: Pokud chcete model odstranit, vyberte při najetí myší na datovou sadu tři tečky a pak vyberte Odstranit.

Zahrnuté datové sady: Výběrem na kartě Zahrnuté datové sady zobrazíte datové sady modelu.

Použití vlastního jazykového modelu při indexování videa

Pro úlohy indexování se ve výchozím nastavení nepoužívá vlastní jazykový model, takže je nutné ho vybrat během procesu nahrávání indexu.

Během procesu nahrávání vyberte zdroj vlastního jazykového modelu z rozevírací nabídky jazyka .
Vyberte Odeslat.

Stejný postup platí, když chcete přeindexovat video pomocí vlastního modelu.

Poznámka:

Následuje tabulka s popisy některých parametrů používaných s požadavky modelu řeči:

Jméno	Zadejte	Popis
`displayName`	řetězec	Požadovaný název datové sady nebo modelu.
`locale`	řetězec	Kód jazyka datové sady nebo modelu. Úplný seznam najdete v tématu Podpora jazyků.
`kind`	integer	0 pro datovou sadu prostého textu, 1 pro datovou sadu výslovnosti.
`description`	řetězec	Volitelný popis datové sady nebo modelu
`contentUrl`	identifikátor uri	Adresa URL zdrojového souboru použitého při vytváření datové sady
`customProperties`	objekt	Volitelné vlastnosti datové sady nebo modelu

Vytvoření datové sady služby Speech

Požadavek vytvořit datovou sadu služby Speech vytvoří datovou sadu pro trénování modelu řeči. Nahrajte soubor, který se použije k vytvoření datové sady s tímto požadavkem. Obsah datové sady nelze po vytvoření upravit.

Definujte parametry v textu požadavku, včetně adresy URL textového souboru, který se má nahrát. Pole popisu a vlastních vlastností jsou nepovinná. Toto je příklad textu požadavku:

{
    "displayName": "Pronunciation Dataset",
    "locale": "en-US",
    "kind": "Pronunciation",
    "description": "This is a pronunciation dataset.",
    "contentUrl": https://contoso.com/location,
    "customProperties": {
        "tag": "Pronunciation Dataset Example"
    }
}

Příklad odpovědi

{ 
    "id": "000000-0000-0000-0000-f58ac7002ae9", 
    "properties": { 
        "acceptedLineCount": 0, 
        "rejectedLineCount": 0, 
        "duration": null, 
        "error": null 
    }, 
    "displayName": "Contoso plain text", 
    "description": "VI dataset", 
    "locale": "en-US", 
    "kind": "Language", 
    "status": "Waiting", 
    "lastActionDateTime": "2023-02-28T13:24:27Z", 
    "createdDateTime": "2023-02-28T13:24:27Z", 
    "customProperties": null 
}

Vytvoření modelu řeči

Žádost o vytvoření modelu řeči vytvoří a trénuje vlastní model řeči , který se dá použít ke zlepšení přesnosti přepisu videí. Musí obsahovat alespoň jednu datovou sadu prostého textu. Volitelně může mít výslovné datové sady. Po vytvoření není možné přidat ani aktualizovat všechny relevantní soubory datových sad jako datové sady modelu.

Definujte parametry v textu požadavku, včetně seznamu řetězců, které datová sada nebo datové sady modelu mají zahrnout. Pole popisu a vlastních vlastností jsou nepovinná. Toto je ukázka textu požadavku:

{
    "displayName": "Contoso Speech Model",
    "locale": "en-US",
    "datasets": ["ff3d2bc4-ab5a-4522-b599-b3d5ba768c75", "87c8962d-1d3c-44e5-a2b2-c696fddb9bae"],
    "description": "Contoso ads example model",
    "customProperties": {
        "tag": "Example Model"
    }
}

Příklad odpovědi

{ 
    "id": "00000000-0000-0000-0000-85be4454cf", 
    "properties": { 
        "deprecationDates": { 
            "adaptationDateTime": null, 
            "transcriptionDateTime": "2025-04-15T00:00:00Z" 
        }, 
        "error": null 
    }, 
    "displayName": "Contoso speech model", 
    "description": "Contoso speech model for video indexer", 
    "locale": "en-US", 
    "datasets": ["00000000-0000-0000-0000-f58ac7002ae9"], 
    "status": "Processing", 
    "lastActionDateTime": "2023-02-28T13:36:28Z", 
    "createdDateTime": "2023-02-28T13:36:28Z", 
    "customProperties": null 
}

Získání datové sady řeči

Rozhraní GET Speech Dataset API vrátí informace o zadané datové sadě.

Příklad odpovědi

{ 
    "id": "00000000-0000-0000-0000-f58002ae9", 
    "properties": { 
        "acceptedLineCount": 41, 
        "rejectedLineCount": 0, 
        "duration": null, 
        "error": null 
    }, 
    "displayName": "Contoso plain text", 
    "description": "VI dataset", 
    "locale": "en-US", 
    "kind": "Language", 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-28T13:24:43Z", 
    "createdDateTime": "2023-02-28T13:24:27Z", 
    "customProperties": null 
}

Získání souborů datových sad řeči

Požadavek Get Speech Dataset Files vrátí soubory a metadata zadané datové sady.

Příklad odpovědi

[{ 
    "datasetId": "00000000-0000-0000-0000-f58ac72a", 
    "fileId": "00000000-0000-0000-0000-cb190769c", 
    "name": "languagedata", 
    "contentUrl": "", 
    "kind": "LanguageData", 
    "createdDateTime": "2023-02-28T13:24:43Z", 
    "properties": { 
        "size": 1517 
    } 
}, { 
    "datasetId": "00000000-0000-0000-0000-f58ac72” 
    "fileId": "00000000-0000-0000-0000-2369192e", 
    "name": "normalized.txt", 
    "contentUrl": "", 
    "kind": "LanguageData", 
    "createdDateTime": "2023-02-28T13:24:43Z", 
    "properties": { 
        "size": 1517 
    } 
}, { 
    "datasetId": "00000000-0000-0000-0000-f58ac7", 
    "fileId": "00000000-0000-0000-0000-05f1e306", 
    "name": "report.json", 
    "contentUrl": "", 
    "kind": "DatasetReport", 
    "createdDateTime": "2023-02-28T13:24:43Z", 
    "properties": { 
        "size": 78 
    } 
}]

Získání zadaných datových sad účtů

Požadavek Get Speech Datasets vrátí informace o všech zadaných datových sadách účtů.

Příklad odpovědi

[{ 
    "id": "00000000-0000-0000-abf5-4dad0f", 
    "properties": { 
        "acceptedLineCount": 41, 
        "rejectedLineCount": 0, 
        "duration": null, 
        "error": null 
    }, 
    "displayName": "test", 
    "description": "string", 
    "locale": "en-US", 
    "kind": "Language", 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-27T08:42:02Z", 
    "createdDateTime": "2023-02-27T08:41:39Z", 
    "customProperties": null 
}]

Získání zadaného modelu řeči

Rozhraní API get Speech Model vrátí informace o zadaném modelu.

Příklad odpovědi

{ 
    "id": "00000000-0000-0000-0000-5685be445", 
    "properties": { 
        "deprecationDates": { 
            "adaptationDateTime": null, 
            "transcriptionDateTime": "2025-04-15T00:00:00Z" 
        }, 
        "error": null 
    }, 
    "displayName": "Contoso speech model", 
    "description": "Contoso speech model for video indexer", 
    "locale": "en-US", 
    "datasets": ["00000000-0000-0000-0000-f58ac7002"], 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-28T13:36:38Z", 
    "createdDateTime": "2023-02-28T13:36:28Z", 
    "customProperties": null 
}

Získání zadaných modelů řeči účtu

Rozhraní API Get Speech Models vrátí informace o všech modelech v zadaném účtu.

Příklad odpovědi

[{ 
    "id": "00000000-0000-0000-0000-5685be445", 
    "properties": { 
        "deprecationDates": { 
            "adaptationDateTime": null, 
            "transcriptionDateTime": "2025-04-15T00:00:00Z" 
        }, 
        "error": null 
    }, 
    "displayName": "Contoso speech model", 
    "description": "Contoso speech model for video indexer", 
    "locale": "en-US", 
    "datasets": ["00000000-0000-0000-0000-f58ac7002a"], 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-28T13:36:38Z", 
    "createdDateTime": "2023-02-28T13:36:28Z", 
    "customProperties": null 
}]

Odstranění datové sady řeči

Rozhraní API pro odstranění datové sady služby Speech odstraní zadanou datovou sadu. Veškerý model, který byl vytrénován s odstraněnou datovou sadou, bude nadále k dispozici, dokud se model nesmazat. Datovou sadu nemůžete odstranit, když se používá k indexování nebo trénování.

Příklad odpovědi

Po úspěšném odstranění datové sady neexistuje žádný vrácený obsah.

Odstranění modelu řeči

Rozhraní API pro odstranění modelu řeči odstraní zadaný model řeči. Model nemůžete odstranit, když se používá k indexování nebo trénování.

Response

Po úspěšném odstranění modelu řeči neexistuje žádný vrácený obsah.

Sdílet prostřednictvím

Přizpůsobení modelu řeči

Požadavky

Vytvoření datové sady

Kontrola a aktualizace datové sady

Vytvoření vlastního modelu řeči

Učení modelu

Trénování modelu prostřednictvím karty Datové sady

Trénování modelu prostřednictvím karty Modely

Kontrola a aktualizace modelu

Použití vlastního jazykového modelu při indexování videa

Vytvoření datové sady služby Speech

Příklad odpovědi

Vytvoření modelu řeči

Příklad odpovědi

Získání datové sady řeči

Příklad odpovědi

Získání souborů datových sad řeči

Příklad odpovědi

Získání zadaných datových sad účtů

Příklad odpovědi

Získání zadaného modelu řeči

Příklad odpovědi

Získání zadaných modelů řeči účtu

Příklad odpovědi

Odstranění datové sady řeči

Příklad odpovědi

Odstranění modelu řeči

Response

Váš názor

Další materiály