Oversigt

1 minut

Notat

Se fanen Tekst og billeder for flere detaljer!

I dette modul udforskede du de grundlæggende taleteknologier, der muliggør naturlige stemmeinteraktioner i AI-applikationer. Du lærte, hvordan talegenkendelse konverterer talte ord til tekst, og hvordan talesyntese genererer menneskelignende lyd fra skriftligt indhold.

I løbet af dette modul opdagede du:

Talescenarier og -programmer: Taleteknologier transformerer brugeroplevelser på tværs af kundeservice, tilgængelighed, samtale-AI, sundhedsdokumentation og e-læring. Du undersøgte, hvordan kombinationen af talegenkendelse og syntese skaber flydende tovejssamtaler, der føles naturlige og reducerer brugerfriktion.
Grundlæggende om talegenkendelse: Du undersøgte den sekstrins pipeline, der konverterer lyd til tekst – fra at fange lydbølger til at producere formaterede transskriptioner. Du lærte, hvordan MFCC-funktioner udtrækker meningsfulde mønstre fra lyd, hvordan transformerbaserede akustiske modeller forudsiger fonemer, og hvordan sprogmodeller løser tvetydighed ved at anvende ordforråd og grammatikviden.
Grundlæggende talesyntese: Du opdagede den fire-trins proces, der omdanner tekst til naturlig tale - tekstnormalisering, sproglig analyse, prosodigenerering og lydsyntese. Du undersøgte, hvordan grafem-til-fonem-konvertering håndterer stavevariationer, hvordan transformermodeller forudsiger naturlig rytme og betoning, og hvordan neurale vokodere genererer hi-fi-lydbølgeformer.

Tips

Du kan finde flere oplysninger under Kom i gang med tale i Azure.

Feedback

Var denne side nyttig?