Oversigt
Notat
Se fanen Tekst og billeder for flere detaljer!
I dette modul udforskede du de grundlæggende taleteknologier, der muliggør naturlige stemmeinteraktioner i AI-applikationer. Du lærte, hvordan talegenkendelse konverterer talte ord til tekst, og hvordan talesyntese genererer menneskelignende lyd fra skriftligt indhold.
I løbet af dette modul opdagede du:
Talescenarier og -programmer: Taleteknologier transformerer brugeroplevelser på tværs af kundeservice, tilgængelighed, samtale-AI, sundhedsdokumentation og e-læring. Du undersøgte, hvordan kombinationen af talegenkendelse og syntese skaber flydende tovejssamtaler, der føles naturlige og reducerer brugerfriktion.
Grundlæggende om talegenkendelse: Du undersøgte den sekstrins pipeline, der konverterer lyd til tekst – fra at fange lydbølger til at producere formaterede transskriptioner. Du lærte, hvordan MFCC-funktioner udtrækker meningsfulde mønstre fra lyd, hvordan transformerbaserede akustiske modeller forudsiger fonemer, og hvordan sprogmodeller løser tvetydighed ved at anvende ordforråd og grammatikviden.
Grundlæggende talesyntese: Du opdagede den fire-trins proces, der omdanner tekst til naturlig tale - tekstnormalisering, sproglig analyse, prosodigenerering og lydsyntese. Du undersøgte, hvordan grafem-til-fonem-konvertering håndterer stavevariationer, hvordan transformermodeller forudsiger naturlig rytme og betoning, og hvordan neurale vokodere genererer hi-fi-lydbølgeformer.
Tips
Du kan finde flere oplysninger under Kom i gang med tale i Azure.