Spraaksynthese met het hulpprogramma Voor het maken van audio-inhoud

Artikel
01/18/2024

U kunt het hulpprogramma Voor het maken van audio-inhoud in Speech Studio voor tekst naar spraaksynthese gebruiken zonder code te schrijven. U kunt de uitvoeraudio als zodanig gebruiken of als uitgangspunt voor verdere aanpassing.

Bouw zeer natuurlijke audio-inhoud voor verschillende scenario's, zoals audioboeken, nieuwsuitzendingen, video gesproken tekst en chatbots. Met het maken van audio-inhoud kunt u tekst efficiënt afstemmen op spraakstemmen en aangepaste audio-ervaringen ontwerpen.

Het hulpprogramma is gebaseerd op SSML (Speech Synthesis Markup Language). Hiermee kunt u tekst aanpassen aan spraakuitvoerkenmerken in realtime of batchsynthese, zoals spraaktekens, spraakstijlen, spreeksnelheid, uitspraak en prosody.

Aanpak zonder code: u kunt het hulpprogramma Voor het maken van audio-inhoud voor tekst-naar-spraaksynthese gebruiken zonder code te schrijven. De uitvoeraudio kan het uiteindelijke product zijn dat u wilt. U kunt bijvoorbeeld de uitvoeraudio gebruiken voor een podcast of gesproken video.
Ontwikkelaarsvriendelijk: u kunt luisteren naar de uitvoeraudio en de SSML aanpassen om spraaksynthese te verbeteren. Vervolgens kunt u de Speech SDK of Speech CLI gebruiken om de SSML te integreren in uw toepassingen. U kunt bijvoorbeeld de SSML gebruiken voor het bouwen van een chatbot.

U hebt eenvoudig toegang tot een breed scala aan talen en stemmen. Deze stemmen omvatten geavanceerde, vooraf samengestelde neurale stemmen en uw aangepaste neurale stem, als u er een hebt gemaakt.

Bekijk de zelfstudievideo Audio-inhoud maken op YouTube voor meer informatie.

Aan de slag

Het hulpprogramma Voor het maken van audio-inhoud in Speech Studio is gratis toegankelijk, maar u betaalt voor het gebruik van de Speech-service. Als u met het hulpprogramma wilt werken, moet u zich aanmelden met een Azure-account en een Spraak-resource maken. Voor elk Azure-account hebt u gratis maandelijkse spraakquota, waaronder 0,5 miljoen tekens voor vooraf gedefinieerde neurale stemmen (aangeduid als Neural op de pagina met prijzen). Meestal is het maandelijkse toegewezen bedrag voldoende voor een klein inhoudsteam van ongeveer 3-5 personen.

In de volgende secties wordt beschreven hoe u een Azure-account maakt en een Spraak-resource opkrijgt.

Stap 1: Een Azure-account maken

Als u wilt werken met het maken van audio-inhoud, hebt u een Microsoft-account en een Azure-account nodig.

Azure Portal is de centrale locatie waar u uw Azure-account kunt beheren. U kunt de Spraak-resource maken, de producttoegang beheren en alles bewaken, van eenvoudige web-apps tot complexe cloudimplementaties.

Stap 2: Een spraakresource maken

Nadat u zich hebt geregistreerd voor het Azure-account, moet u een Spraak-resource maken in uw Azure-account om toegang te krijgen tot Speech-services. Maak een spraakresource in Azure Portal. Zie Een multiserviceresource maken voor meer informatie.

Het kan even duren voordat u uw nieuwe spraakresource is geïmplementeerd. Nadat de implementatie is voltooid, kunt u het hulpprogramma Voor het maken van audio-inhoud gaan gebruiken.

Notitie

Als u van plan bent neurale stemmen te gebruiken, moet u ervoor zorgen dat u uw resource maakt in een regio die neurale stemmen ondersteunt.

Nadat u het Azure-account en de Speech-resource hebt ontvangen, meldt u zich aan bij Speech Studio en selecteert u vervolgens Audio-inhoud maken.
Selecteer het Azure-abonnement en de Speech-resource waarmee u wilt werken en selecteer vervolgens Resource gebruiken.

De volgende keer dat u zich aanmeldt bij Het maken van audio-inhoud, bent u rechtstreeks gekoppeld aan de audiobestanden onder de huidige spraakresource. U kunt de details en status van uw Azure-abonnement controleren in Azure Portal.

Als u geen beschikbare Spraak-resource hebt en u de eigenaar of beheerder van een Azure-abonnement bent, kunt u een Spraak-resource maken in Speech Studio door een nieuwe resource maken te selecteren.

Als u een gebruikersrol hebt voor een bepaald Azure-abonnement, hebt u mogelijk geen machtigingen om een nieuwe Spraak-resource te maken. Neem contact op met uw beheerder om toegang te krijgen.

Als u op elk gewenst moment van spraakresource wilt wisselen, selecteert u Instellingen boven aan de pagina.

Als u van directory wilt wisselen, selecteert u Instellingen of gaat u naar uw profiel.

Het hulpprogramma gebruiken

In het volgende diagram ziet u het proces voor het afstemmen van de tekst naar spraakuitvoer.

Diagram of the sequence of steps for fine-tuning text to speech outputs.

Elke stap in het voorgaande diagram wordt hier beschreven:

Kies de spraakresource waarmee u wilt werken.
Maak een audioafstemmingsbestand met behulp van tekst zonder opmaak of SSML-scripts. Voer uw inhoud in of upload deze naar het maken van audio-inhoud.
Kies de stem en de taal voor uw scriptinhoud. Het maken van audio-inhoud bevat alle vooraf gemaakte tekst voor spraakstemmen. U kunt vooraf gemaakte neurale stemmen of een aangepaste neurale stem gebruiken.

Notitie

Gated access is beschikbaar voor aangepaste neurale spraak, waarmee u high-definition stemmen kunt maken die vergelijkbaar zijn met natuurlijk klinkende spraak. Zie Gating-proces voor meer informatie.
Selecteer de inhoud die u wilt bekijken en selecteer vervolgens Afspelen (driehoekpictogram) om een voorbeeld van de standaardsynthese-uitvoer te bekijken.

Als u wijzigingen aanbrengt in de tekst, selecteert u het pictogram Stoppen en selecteert u Opnieuw afspelen om de audio opnieuw te genereren met gewijzigde scripts.

Verbeter de uitvoer door de uitspraak, break, pitch, rate, innation, voice style en meer aan te passen. Zie Speech Synthesis Markup Language voor een volledige lijst met opties.

Voor meer informatie over het afstemmen van spraakuitvoer bekijkt u de video Tekst naar spraak converteren met microsoft Azure AI-stemmen .
Sla uw afgestemde audio op en exporteer deze.

Wanneer u het afstemmingsspoor in het systeem opslaat, kunt u blijven werken en de uitvoer herhalen. Wanneer u tevreden bent met de uitvoer, kunt u een taak voor het maken van audio maken met de exportfunctie. U kunt de status van de exporttaak bekijken en de uitvoer downloaden voor gebruik met uw apps en producten.

Een audioafstemmingsbestand maken

U kunt uw inhoud op twee manieren ophalen in het hulpprogramma Voor het maken van audio-inhoud:

Optie 1
1. Selecteer Nieuw>tekstbestand om een nieuw audioafstemmingsbestand te maken.
2. Voer uw inhoud in of plak deze in het bewerkingsvenster. Het toegestane aantal tekens voor elk bestand is 20.000 of minder. Als uw script meer dan 20.000 tekens bevat, kunt u optie 2 gebruiken om uw inhoud automatisch te splitsen in meerdere bestanden.
3. Selecteer Opslaan.

Optie 2

Selecteer Tekstbestand uploaden>om een of meer tekstbestanden te importeren. Zowel tekst zonder opmaak als SSML worden ondersteund.

Als uw scriptbestand meer dan 20.000 tekens bevat, splitst u de inhoud op alinea's, op tekens of op reguliere expressies.

Wanneer u uw tekstbestanden uploadt, moet u ervoor zorgen dat deze voldoen aan deze vereisten:

Eigenschappen	Beschrijving
File format	Tekst zonder opmaak (.txt)* SSML-tekst (.txt)** Zip-bestanden worden niet ondersteund.
Coderingsindeling	UTF-8
Bestandsnaam	Elk bestand moet een unieke naam hebben. Dubbele bestanden worden niet ondersteund.
Text length	Tekenlimiet is 20.000. Als uw bestanden de limiet overschrijden, splitst u ze op basis van de instructies in het hulpprogramma.
SSML-beperkingen	Elk SSML-bestand kan slechts één deel van SSML bevatten.

* Voorbeeld van tekst zonder opmaak:

Welcome to use Audio Content Creation to customize audio output for your products.

** Voorbeeld van SSML-tekst:

<speak xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" version="1.0" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
    Welcome to use Audio Content Creation <break time="10ms" />to customize audio output for your products.
    </voice>
</speak>

Afgestemde audio exporteren

Nadat u de audio-uitvoer hebt bekeken en tevreden bent met uw afstemming en aanpassing, kunt u de audio exporteren.

Selecteer Exporteren om een taak voor het maken van audio te maken.

U wordt aangeraden te exporteren naar de audiobibliotheek om audio-uitvoer eenvoudig op te slaan, te zoeken en te zoeken in de cloud. U kunt beter integreren met uw toepassingen via Azure Blob Storage. U kunt de audio ook rechtstreeks naar uw lokale schijf downloaden.

Kies de uitvoerindeling voor uw afgestemde audio. De ondersteunde audio-indelingen en voorbeeldfrequenties worden vermeld in de volgende tabel:

Notatie	8 kHz sample rate	Samplefrequentie van 16 kHz	Samplefrequentie van 24 kHz	Samplefrequentie van 48 kHz
Wav	riff-8khz-16bit-mono-pcm	riff-16khz-16bit-mono-pcm	riff-24khz-16bit-mono-pcm	riff-48khz-16bit-mono-pcm
Mp3	N.v.t.	audio-16khz-128kbitrate-mono-mp3	audio-24khz-160kbitrate-mono-mp3	audio-48khz-192kbitrate-mono-mp3

Als u de status van de taak wilt weergeven, selecteert u het tabblad Takenlijst .

Als de taak mislukt, raadpleegt u de gedetailleerde informatiepagina voor een volledig rapport.
Wanneer de taak is voltooid, is uw audio beschikbaar om te downloaden in het deelvenster Audiobibliotheek .
Selecteer het bestand dat u wilt downloaden en downloaden.

Nu bent u klaar om uw aangepaste afgestemde audio in uw apps of producten te gebruiken.

BYOS en anonieme openbare leestoegang voor blobs configureren

Als u geen toegang meer hebt tot uw BYOS (Bring Your Own Storage), kunt u geen bestanden weergeven, maken, bewerken of verwijderen. Als u de toegang wilt hervatten, moet u de huidige opslag verwijderen en de BYOS opnieuw configureren in Azure Portal. Zie Azure Storage koppelen als een lokale share in App Service voor meer informatie over het configureren van BYOS.

Nadat u de BYOS-machtiging hebt geconfigureerd, moet u anonieme openbare leestoegang configureren voor gerelateerde containers en blobs. Anders zijn blobgegevens niet beschikbaar voor openbare toegang en is uw lexiconbestand in de blob niet toegankelijk. De instelling voor openbare toegang van een container is standaard uitgeschakeld. Als u anonieme gebruikers leestoegang wilt verlenen tot een container en de bijbehorende blobs, stelt u eerst Openbare blobtoegang toestaan in op Ingeschakeld om openbare toegang voor het opslagaccount toe te staan en stelt u vervolgens het openbare toegangsniveau van de container (met de naam acc-public-files) in (alleen anonieme leestoegang voor blobs). Zie Anonieme openbare leestoegang configureren voor containers en blobs voor meer informatie over het configureren van anonieme openbare leestoegang.

Gebruikers van het maken van audio-inhoud toevoegen of verwijderen

Als meer dan één gebruiker audio-inhoud wil maken, kunt u deze toegang verlenen tot het Azure-abonnement en de Spraak-resource. Als u gebruikers toevoegt aan een Azure-abonnement, hebben ze toegang tot alle resources onder het Azure-abonnement. Maar als u alleen gebruikers toevoegt aan een Spraak-resource, hebben ze alleen toegang tot de Spraak-resource en niet tot andere resources onder dit Azure-abonnement. Gebruikers met toegang tot de Spraak-resource kunnen gebruikmaken van het hulpprogramma Voor het maken van audio-inhoud.

De gebruikers die u toegang verleent, moeten een Microsoft-account instellen. Als ze een Microsoft-account hebben, kunnen ze er binnen een paar minuten een maken. Ze kunnen hun bestaande e-mail gebruiken en deze koppelen aan een Microsoft-account, of ze kunnen een Outlook-e-mailadres als Microsoft-account maken en gebruiken.

Gebruikers toevoegen aan een Spraak-resource

Ga als volgt te werk om gebruikers toe te voegen aan een Spraak-resource, zodat ze audio-inhoud kunnen maken:

Selecteer in Azure Portal de optie Alle services.
Selecteer vervolgens de Azure AI-services en navigeer naar uw specifieke Speech-resource.

Notitie

U kunt Azure RBAC ook instellen voor hele resourcegroepen, abonnementen of beheergroepen. U doet dit door het gewenste bereikniveau te selecteren en vervolgens naar het gewenste item te navigeren (bijvoorbeeld door Resourcegroepen te selecteren en vervolgens te klikken op de gewenste resourcegroep).
Selecteer Toegangsbeheer (IAM) in het linkernavigatiedeelvenster.
Selecteer Roltoewijzing toevoegen>.
Selecteer op het tabblad Rol in het volgende scherm een rol die u wilt toevoegen (in dit geval Eigenaar).
Voer op het tabblad Leden het e-mailadres van een gebruiker in en selecteer de naam van de gebruiker in de directory. Het e-mailadres moet zijn gekoppeld aan een Microsoft-account dat wordt vertrouwd door Microsoft Entra ID. Gebruikers kunnen zich eenvoudig registreren voor een Microsoft-account met hun persoonlijke e-mailadres.
Selecteer op het tabblad Beoordelen en toewijzen de optie Beoordelen en toewijzen om de rol toe te wijzen.

Ga als volgt te werk:

Er wordt automatisch een e-mailuitnodiging verzonden naar gebruikers. Ze kunnen deze accepteren door Uitnodiging>accepteren te selecteren om deel te nemen aan Azure in hun e-mail. Ze worden vervolgens omgeleid naar Azure Portal. Ze hoeven geen verdere actie te ondernemen in Azure Portal. Na enkele ogenblikken krijgen gebruikers de rol toegewezen in het bereik van de spraakresource, waardoor ze toegang hebben tot deze Spraak-resource. Als gebruikers de uitnodigings-e-mail niet ontvangen, kunt u zoeken naar hun account onder Roltoewijzingen en naar hun profiel gaan. Zoek naar geaccepteerde identiteitsuitnodiging>en selecteer (beheren) om de e-mailuitnodiging opnieuw te verzenden. U kunt de uitnodigingskoppeling ook naar hen kopiëren en verzenden.

Gebruikers gaan nu naar de productpagina audio-inhoud maken of vernieuwen en melden zich aan met hun Microsoft-account. Ze selecteren het blok Audio-inhoud maken in alle spraakproducten. Ze kiezen de Spraak-resource in het pop-upvenster of in de instellingen in de rechterbovenhoek.

Als ze de beschikbare Spraak-resource niet kunnen vinden, kunnen ze controleren of ze zich in de juiste map bevinden. Hiervoor selecteren ze het accountprofiel in de rechterbovenhoek en vervolgens Schakelen naast de huidige map. Als er meer dan één map beschikbaar is, betekent dit dat ze toegang hebben tot meerdere mappen. Ze kunnen overschakelen naar verschillende mappen en naar Instellingen gaan om te zien of de juiste Spraak-resource beschikbaar is.

Gebruikers die zich in dezelfde Spraak-resource bevinden, zien elkaars werk in het hulpprogramma Voor het maken van audio-inhoud. Als u wilt dat elke afzonderlijke gebruiker een unieke en privéwerkruimte heeft bij het maken van audio-inhoud, maakt u een nieuwe Spraak-resource voor elke gebruiker en geeft u elke gebruiker de unieke toegang tot de Spraak-resource.

Gebruikers verwijderen uit een Spraak-resource

Zoek naar Azure AI-services in Azure Portal en selecteer de Spraakresource waaruit u gebruikers wilt verwijderen.
Selecteer Toegangsbeheer (IAM) en selecteer vervolgens het tabblad Roltoewijzingen om alle roltoewijzingen voor deze Spraak-resource weer te geven.
Selecteer de gebruikers die u wilt verwijderen, selecteer Verwijderen en selecteer vervolgens OK.

Gebruikers in staat stellen om toegang te verlenen aan anderen

Als u wilt toestaan dat een gebruiker toegang verleent aan andere gebruikers, moet u deze de rol van eigenaar voor de Spraak-resource toewijzen en de gebruiker instellen als de Azure-directorylezer.

Voeg de gebruiker toe als de eigenaar van de Spraak-resource. Zie Gebruikers toevoegen aan een spraakresource voor meer informatie.
Selecteer in Azure Portal het samengevouwen menu linksboven, selecteer Microsoft Entra-id en selecteer vervolgens Gebruikers.
Zoek naar het Microsoft-account van de gebruiker, ga naar de detailpagina en selecteer toegewezen rollen.
Selecteer Maplezers voor toewijzingen>toevoegen. Als de knop Toewijzingen toevoegen niet beschikbaar is, betekent dit dat u geen toegang hebt. Alleen de globale beheerder van deze directory kan toewijzingen toevoegen aan gebruikers.

Spraaksynthese met het hulpprogramma Voor het maken van audio-inhoud

Aan de slag

Stap 1: Een Azure-account maken

Stap 2: Een spraakresource maken

Het hulpprogramma gebruiken

Een audioafstemmingsbestand maken

Afgestemde audio exporteren

BYOS en anonieme openbare leestoegang voor blobs configureren

Gebruikers van het maken van audio-inhoud toevoegen of verwijderen

Gebruikers toevoegen aan een Spraak-resource

Gebruikers verwijderen uit een Spraak-resource

Gebruikers in staat stellen om toegang te verlenen aan anderen

Volgende stappen

Aanvullende resources

Spraaksynthese met het hulpprogramma Voor het maken van audio-inhoud

Aan de slag

Stap 1: Een Azure-account maken

Stap 2: Een spraakresource maken

Stap 3: Aanmelden bij het maken van audio-inhoud met uw Azure-account en spraakresource

Het hulpprogramma gebruiken

Een audioafstemmingsbestand maken

Afgestemde audio exporteren

BYOS en anonieme openbare leestoegang voor blobs configureren

Gebruikers van het maken van audio-inhoud toevoegen of verwijderen

Gebruikers toevoegen aan een Spraak-resource

Gebruikers verwijderen uit een Spraak-resource

Gebruikers in staat stellen om toegang te verlenen aan anderen

Volgende stappen

Aanvullende resources