Wat is Custom Speech?

Met Custom Speech kunt u de Microsoft nauwkeurigheid van spraak-naar-tekst voor uw toepassingen en producten evalueren en verbeteren.

Standaard wordt voor spraak naar tekst gebruikgemaakt van een Universal Language Model als basismodel dat is getraind met Microsoft gegevens in eigendom en veelgebruikte gesproken taal weerspiegelt. Het basismodel is vooraf getraind met dialecten en fonetiek die verschillende algemene domeinen vertegenwoordigen. Wanneer u een aanvraag voor spraakherkenning indient, wordt standaard het meest recente basismodel voor elke ondersteunde taal gebruikt. Het basismodel werkt zeer goed in de meeste scenario's voor spraakherkenning.

Een aangepast model kan worden gebruikt om het basismodel te verbeteren om de herkenning van domeinspecifieke woordenlijst die specifiek is voor de toepassing te verbeteren door tekstgegevens op te geven om het model te trainen. Het kan ook worden gebruikt om de herkenning te verbeteren op basis van de specifieke audioomstandigheden van de toepassing door audiogegevens te voorzien van referentietranscripties.

Hoe werkt het?

Met Custom Speech kunt u uw eigen gegevens uploaden, een aangepast model testen en trainen, de nauwkeurigheid tussen modellen vergelijken en een model implementeren op een aangepast eindpunt.

Diagram waarin de onderdelen worden gemarkeerd waaruit het gebied Custom Speech van Speech Studio bestaat.

Hier vindt u meer informatie over de volgorde van de stappen die in het vorige diagram worden weergegeven:

  1. Maak een project en kies een model. Gebruik de maken die u maakt in de Azure Portal. Als u een aangepast model gaat trainen met audiogegevens, kiest u een spraakresourceregio met toegewezen hardware voor het trainen van audiogegevens. Zie voetnoten in de tabel regio's voor meer informatie.
  2. Testgegevens uploaden. Testgegevens uploaden om de Microsoft spraak-naar-tekst-aanbieding voor uw toepassingen, hulpprogramma's en producten te evalueren.
  3. Testkwaliteit voor herkenning. Gebruik Speech Studio om geĆ¼ploade audio af te spelen en de kwaliteit van de spraakherkenning van uw testgegevens te controleren.
  4. Model kwantitatief testen. Evalueer en verbeter de nauwkeurigheid van het spraak-naar-tekst-model. De Speech-service biedt een kwantitatief foutpercentage (WER), dat u kunt gebruiken om te bepalen of aanvullende training vereist is.
  5. Een model trainen. Geef geschreven transcripties en gerelateerde tekst op, samen met de bijbehorende audiogegevens. Het testen van een model voor en na de training is optioneel, maar wordt aanbevolen.
  6. Een model implementeren. Zodra u tevreden bent met de testresultaten, implementeert u het model op een aangepast eindpunt. Met uitzondering van batchtranscriptie moet u een aangepast eindpunt implementeren om een Custom Speech-model te gebruiken.

Volgende stappen