Vytvoření vlastního projektu řeči

Článek
04/15/2024

Vlastní projekty řeči obsahují modely, trénovací a testovací datové sady a koncové body nasazení. Každý projekt je specifický pro národní prostředí. Můžete například vytvořit projekt pro angličtinu v USA.

Vytvoření projektu

Pokud chcete vytvořit vlastní projekt řeči, postupujte takto:

Přihlaste se k sadě Speech Studio.
Vyberte předplatné a prostředek služby Speech, se kterým chcete pracovat.

Důležité

Pokud budete trénovat vlastní model se zvukovými daty, zvolte oblast prostředků služby Speech s vyhrazeným hardwarem pro trénování zvukových dat. Další informace najdete v tabulce poznámek pod čarou v tabulce oblastí .
Vyberte Možnost Vlastní řeč>Vytvořit nový projekt.
Podle pokynů průvodce vytvořte projekt.

Vyberte nový projekt podle názvu nebo vyberte Přejít na projekt. Tyto položky nabídky se zobrazí na levém panelu: Datové sady služby Speech, Trénování vlastních modelů, testovacích modelů a nasazení modelů.

K vytvoření projektu použijte spx csr project create příkaz. Parametry požadavku se sestaví podle následujících pokynů:

Nastavte požadovaný language parametr. Národní prostředí projektu a obsažené datové sady by měly být stejné. Národní prostředí nelze později změnit. Parametr Rozhraní příkazového locale řádku language služby Speech odpovídá vlastnosti v požadavku JSON a odpovědi.
Nastavte požadovaný name parametr. Toto je název, který se zobrazí v sadě Speech Studio. Parametr Rozhraní příkazového displayName řádku name služby Speech odpovídá vlastnosti v požadavku JSON a odpovědi.

Tady je příklad příkazu Rozhraní příkazového řádku služby Speech, který vytvoří projekt:

spx csr project create --api-version v3.1 --name "My Project" --description "My Project Description" --language "en-US"

Měl by se zobrazit text odpovědi v následujícím formátu:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed",
  "links": {
    "evaluations": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/evaluations",
    "datasets": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/datasets",
    "models": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/models",
    "endpoints": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/endpoints",
    "transcriptions": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/transcriptions"       
  },
  "properties": {
    "datasetCount": 0,
    "evaluationCount": 0,
    "modelCount": 0,
    "transcriptionCount": 0,
    "endpointCount": 0
  },
  "createdDateTime": "2022-05-17T22:15:18Z",
  "locale": "en-US",
  "displayName": "My Project",
  "description": "My Project Description"
}

Vlastnost nejvyšší úrovně self v textu odpovědi je identifikátor URI projektu. Pomocí tohoto identifikátoru URI získáte podrobnosti o vyhodnoceních, datových sadách, modelech, koncových bodech a přepisech projektu. Tento identifikátor URI slouží také k aktualizaci nebo odstranění projektu.

V případě nápovědy k rozhraní příkazového řádku služby Speech s projekty spusťte následující příkaz:

spx help csr project

Pokud chcete vytvořit projekt, použijte Projects_Create operaci rozhraní REST API pro převod řeči na text. Sestavte tělo požadavku podle následujících pokynů:

Nastavte požadovanou locale vlastnost. Toto by mělo být národní prostředí obsažených datových sad. Národní prostředí nelze později změnit.
Nastavte požadovanou displayName vlastnost. Toto je název projektu, který se zobrazí v sadě Speech Studio.

Vytvořte požadavek HTTP POST pomocí identifikátoru URI, jak je znázorněno v následujícím příkladu Projects_Create. Nahraďte YourSubscriptionKey klíčem prostředku služby Speech, nahraďte YourServiceRegion oblastí prostředků služby Speech a nastavte vlastnosti textu požadavku, jak jsme popsali dříve.

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
  "displayName": "My Project",
  "description": "My Project Description",
  "locale": "en-US"
} '  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.1/projects"

Měl by se zobrazit text odpovědi v následujícím formátu:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed",
  "links": {
    "evaluations": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/evaluations",
    "datasets": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/datasets",
    "models": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/models",
    "endpoints": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/endpoints",
    "transcriptions": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/transcriptions"       
  },
  "properties": {
    "datasetCount": 0,
    "evaluationCount": 0,
    "modelCount": 0,
    "transcriptionCount": 0,
    "endpointCount": 0
  },
  "createdDateTime": "2022-05-17T22:15:18Z",
  "locale": "en-US",
  "displayName": "My Project",
  "description": "My Project Description"
}

Volba modelu

Použití vlastních modelů řeči má několik přístupů:

Základní model poskytuje přesné rozpoznávání řeči pro celou řadu scénářů. Základní modely se pravidelně aktualizují, aby se zlepšila přesnost a kvalita. Pokud používáte základní modely, doporučujeme použít nejnovější výchozí základní modely. Pokud je u staršího modelu dostupná jenom požadovaná možnost přizpůsobení, můžete zvolit starší základní model.
Vlastní model rozšiřuje základní model tak, aby zahrnoval slovník specifický pro doménu sdílený ve všech oblastech vlastní domény.
Více vlastních modelů se dá použít, když má vlastní doména více oblastí, z nichž každá má specifickou slovní zásobu.

Jedním z doporučených způsobů, jak zjistit, jestli základní model nestačí, je analyzovat přepis vytvořený ze základního modelu a porovnat ho s přepisem vygenerovaným člověkem pro stejný zvuk. Můžete porovnat přepisy a získat skóre chybovosti slov (WER). Pokud je skóre WER vysoké, doporučujeme při trénování vlastního modelu rozpoznat nesprávně identifikovaná slova.

Pokud se slovník v různých oblastech domény liší, doporučuje se více modelů. Například olympiádní komentátoři hlásí různé události, které jsou přidružené k vlastnímu vernacularu. Vzhledem k tomu, že se slovní zásoba jednotlivých olympijských událostí výrazně liší od ostatních, zvyšuje se tím, že sestavení vlastního modelu specifického pro událost zvyšuje přesnost omezením dat promluvy vzhledem k dané události. V důsledku toho model nemusí procházet nesouvisející data, aby se shodovaly. Bez ohledu na to, trénování stále vyžaduje slušnou škálu trénovacích dat. Zahrňte zvuk od různých komentátorů, kteří mají různé zvýraznění, pohlaví, věk atd.

Stabilita modelu a životní cyklus

Základní model nebo vlastní model nasazený do koncového bodu pomocí vlastní řeči je opravený, dokud se nerozhodnete ho aktualizovat. Přesnost a kvalita rozpoznávání řeči zůstávají konzistentní, i když se uvolní nový základní model. To vám umožní uzamknout chování konkrétního modelu, dokud se nerozhodnete použít novější model.

Ať už vytrénujete vlastní model nebo použijete snímek základního modelu, můžete ho použít po omezenou dobu. Další informace najdete v tématu Životní cyklus modelu a koncového bodu.

Vytvoření vlastního projektu řeči

Vytvoření projektu

Volba modelu

Stabilita modelu a životní cyklus

Další kroky

Další materiály