Vad är Speech Studio?

Artikel
2024-09-24

Speech Studio är en uppsättning gränssnittsbaserade verktyg för att skapa och integrera funktioner från Azure AI Speech-tjänsten i dina program. Du skapar projekt i Speech Studio med hjälp av en metod utan kod och refererar sedan till dessa tillgångar i dina program med hjälp av Speech SDK, Speech CLI eller REST-API:erna.

Tips

Du kan också prova tal till text och text till tal i Azure AI Foundry-portalen utan att registrera dig eller skriva någon kod.

Speech Studio-scenarier

Utforska, prova och visa exempelkod för några vanliga användningsfall.

Bildtext: Välj ett exempelvideoklipp för att se bearbetade textningsresultat i realtid eller offline. Lär dig hur du synkroniserar bildtexter med ditt indataljud, tillämpar svordomsfilter, får partiella resultat, tillämpar anpassningar och identifierar talade språk för flerspråkiga scenarier. Mer information finns i snabbstarten för beskrivning.
Call Center: Visa en demonstration om hur du använder språk- och taltjänsterna för att analysera samtalscentrets konversationer. Transkribera anrop i realtid eller bearbeta en batch med anrop, redigera personligt identifierande information och extrahera insikter som sentiment för att hjälpa till med ditt användningsfall för kundtjänst. Mer information finns i snabbstarten för callcenter.

En demonstration av dessa scenarier i Speech Studio finns i den här introduktionsvideon.

Speech Studio-funktioner

I Speech Studio är följande Speech-tjänstfunktioner tillgängliga som projekttyper:

Tal till text i realtid: Testa snabbt tal till text genom att dra ljudfiler här utan att behöva använda någon kod. Speech Studio har ett demoverktyg för att se hur tal till text fungerar på dina ljudexempel. Information om hur du utforskar alla funktioner finns i Vad är tal till text.
Batchtal till text: Testa snabbt batchavskriftsfunktioner för att transkribera en stor mängd ljud i lagringen och ta emot resultat asynkront. Mer information om Batch Speech-to-text finns i Översikt över Batch-tal till text.
Anpassat tal: Skapa taligenkänningsmodeller som är skräddarsydda för specifika ordförrådsuppsättningar och talstilar. Till skillnad från den grundläggande taligenkänningsmodellen blir anpassade talmodeller en del av din unika konkurrensfördel eftersom de inte är offentligt tillgängliga. Information om hur du kommer igång med att ladda upp exempelljud för att skapa en anpassad talmodell finns i Ladda upp tränings- och testdatauppsättningar.
Uttalsbedömning: Utvärdera tal uttal och ge talare feedback om noggrannhet och flyt i talat ljud. Speech Studio tillhandahåller en sandbox-miljö för att testa den här funktionen snabbt, utan kod. Information om hur du använder funktionen med Speech SDK i dina program finns i artikeln Utvärdering av uttal .
Talöversättning: Testa och översätta tal snabbt till andra språk som du väljer med låg svarstid. Mer information om de fullständiga funktionerna finns i Vad är talöversättning.
Röstgalleri: Skapa appar och tjänster som talar naturligt. Välj mellan en bred portfölj med språk, röster och varianter. Ge liv åt dina scenarier med mycket uttrycksfulla och människoliknande neurala röster.
Anpassad röst: Skapa anpassade, enstaka röster för text till tal. Du anger ljudfiler och skapar matchande transkriptioner i Speech Studio och använder sedan anpassade röster i dina program. Information om hur du skapar och använder anpassade röster via slutpunkter finns i Skapa och använda din röstmodell.
Skapande av ljudinnehåll: En metod utan kod för text till tal-syntes. Du kan använda utdataljudet som det är eller som utgångspunkt för ytterligare anpassning. Du kan skapa mycket naturligt ljudinnehåll för olika scenarier, till exempel ljudböcker, nyhetssändningar, videouppläsningar och chattrobotar. Mer information finns i dokumentationen för att skapa ljudinnehåll.
Anpassat nyckelord: Ett anpassat nyckelord är ett ord eller en kort fras som du kan använda för att röstaktivering av en produkt. Du skapar ett anpassat nyckelord i Speech Studio och genererar sedan en binär fil som ska användas med Speech SDK i dina program.

Nästa steg

Utforska Speech Studio

Ytterligare resurser

Dokumentation

Vad är Speech Service? - Azure AI services

Speech-tjänsten tillhandahåller funktioner för tal till text, text till tal och talöversättning med en Azure-resurs. Lägg till tal i dina program, verktyg och enheter med Speech SDK, Speech Studio eller REST API:er.
Regioner – Speech Service - Azure AI services

En lista över tillgängliga regioner och slutpunkter för Speech-tjänsten, inklusive tal till text, text till tal och talöversättning.
Språkstöd – Speech Service - Azure AI services

Taltjänsten stöder flera språk för tal till text och text till talkonvertering, tillsammans med talöversättning. Den här artikeln innehåller en omfattande lista över språkstöd per tjänstfunktion.
Dokumentation om Speech-tjänsten – Självstudier, API-referens – Azure AI-tjänster - Azure AI services

Identifiera tal, syntetisera tal, få översättningar i realtid, transkribera konversationer och integrera tal i robotupplevelser.
Speech Service-kvoter och -gränser - Azure AI services

Snabbreferens, detaljerad beskrivning och metodtips för kvoter och gränser för Speech-tjänsten i Azure AI-tjänster.
Dokumentation om text till tal – Självstudier, API-referens – Azure AI-tjänster - Azure AI services

Text till tal från Speech-tjänsten gör att dina program, verktyg eller enheter kan konvertera text till mänskligt syntetiserat tal.
Snabbstart för text till tal – Taltjänst - Azure AI services

Lär dig hur du skapar en app som konverterar text till tal och utforskar ljudformat som stöds och anpassade konfigurationsalternativ.
Migrering till neural röst – Speech Service - Azure AI services

Det här dokumentet sammanfattar fördelarna med migrering från icke-neural röst till neural röst.