Uwaga dotycząca przezroczystości

Ważne

Tłumaczenia nieanglojęzyczne są dostępne tylko dla wygody. Zapoznaj się zEN-US wersją tego dokumentu, aby uzyskać ostateczną wersję.

System sztucznej inteligencji obejmuje nie tylko technologię, ale także osoby, które będą jej używać, osoby, których to dotyczy, oraz środowisko, w którym jest wdrażana. Utworzenie systemu dopasowanego do zamierzonego celu wymaga zrozumienia, jak działa technologia, jej możliwości i ograniczenia oraz jak osiągnąć najlepszą wydajność.

Microsoft udostępnia Transparency Notes aby ułatwić zrozumienie sposobu działania naszej technologii sztucznej inteligencji. Obejmuje to wybory, które właściciele systemu mogą wpływać na wydajność i zachowanie systemu oraz znaczenie myślenia o całym systemie, w tym technologii, ludzi i środowiska. Możesz użyć notatek przezroczystości podczas opracowywania lub wdrażania własnego systemu lub udostępniać je osobom, które będą korzystać z systemu lub mają na nie wpływ.

Uwagi dotyczące przejrzystości są częścią szerszego wysiłku Microsoft, aby wprowadzić nasze zasady sztucznej inteligencji w życie. Aby dowiedzieć się więcej, zobacz zasady sztucznej inteligencji Microsoft.

Wprowadzenie do oceny wymowy

Interfejs API oceny wymowy pobiera dane wejściowe audio w celu oceny wymowy mowy i daje głośnikom opinię na temat dokładności, biegłości i kompletności dźwięku mówionego. Funkcja oceny wymowy obejmuje również bardziej kompleksowe opinie na temat różnych aspektów prosodii mowy, użycia słownictwa, poprawności gramatyki i zrozumienia tematów, zapewniając szczegółową ocenę umiejętności językowych. Obsługiwane są zarówno oceny skryptowe, jak i nieskrypcyjne, co ułatwia ocenę wymowy i biegłości językowej. Ocena wymowy obsługuje szeroką gamę języków.

Dzięki ocenie wymowy osoby uczące się języka mogą ćwiczyć, uzyskiwać natychmiastowe opinie i poprawiać wymowę, aby mogli mówić i prezentować się z ufnością. Nauczyciele mogą użyć oceny wymowy, aby ocenić wymowę wielu osób mówiących w czasie rzeczywistym.

Podstawy oceny wymowy

Interfejs API oceny wymowy oferuje wyniki oceny mowy przy użyciu podejścia opartego na uczeniu maszynowym, które ściśle pasuje do ocen mowy przeprowadzonych przez natywnych ekspertów. Zawiera cenne opinie na temat wymowy, biegłości, prosodii, słownictwa, poprawności gramatyki i zrozumienia tematów, pomagając poprawić swoje umiejętności językowe i pewnie komunikować się w nowym języku. Model oceny wymowy został wytrenowany przy użyciu 100 000+ godzin danych mowy od natywnych osób mówiących. Może zapewnić dokładne wyniki, gdy ludzie przegapią, powtórzą lub dodają frazy w porównaniu z tekstem referencyjnym. Umożliwia również rozbudowane parametry konfiguracji, aby zapewnić elastyczność korzystania z interfejsu API, na przykład ustawienie stopnia szczegółowości w celu zmiany szczegółowości informacji w ocenie. (Aby uzyskać więcej informacji, zobacz więcej w przykładowym kodzie).

Ocena wymowy ocenia wiele aspektów wymowy i zawartości: dokładność, płynność, kompletność, prosody, użycie słownictwa, poprawność gramatyki i zrozumienie tematu. Zapewnia również oceny na wielu poziomach szczegółowości i zwraca wyniki dokładności dla określonych fonem, sylab, wyrazów, zdań, a nawet całych artykułów. Aby uzyskać więcej informacji, zobacz , jak używać zestawu SPEECH SDK dla funkcji oceny wymowy.

W poniższej tabeli opisano kluczowe wyniki. Aby uzyskać więcej informacji, zobacz pełne parametry odpowiedzi. Korzystając z technik przetwarzania języka naturalnego (NLP) i ustawień EnableMiscue , ocena wymowy może wykrywać błędy, takie jak dodatkowe, brakujące lub powtarzające się wyrazy w porównaniu z tekstem odwołania. Te informacje pomagają uzyskać dokładniejszą ocenę do wykorzystania jako informacje diagnostyczne. Ta funkcja jest przydatna w przypadku dłuższych akapitów tekstu.

Parametr Opis
AccuracyScore Dokładność wymowy mowy. Dokładność wskazuje, jak blisko fonemy pasują do wymowy rodowitego mówcy. Wyniki dokładności sylabowej, wyrazowej i pełnej dokładności tekstu są agregowane na podstawie wyników dokładności na poziomie fonemu i doprecyzowywane za pomocą celów oceny.
FluencyScore Płynność danej mowy. Płynność wskazuje, jak ściśle mowa pasuje do użycia przez osoby mówiące w trybie dyskretnym przerw między wyrazami.
CompletenessScore Kompletność mowy obliczana przez stosunek wymawianych wyrazów do wejściowego tekstu referencyjnego.
ProsodyScore Prosody danej mowy. Prosodia wskazuje, jak naturalna jest dana wypowiedź, w tym akcent, intonacja, tempo mówienia i rytm.
PronScore Ogólny wynik wskazujący jakość wymowy danej mowy. Jest to agregowane na podstawie wartości AccuracyScore, FluencyScore i CompletenessScore z uwzględnieniem wagi.
ErrorType Ta wartość wskazuje, czy wyraz jest pominięty, wstawiony, źle wymawiany, nieprawidłowo wstawiony z przerwą, brakuje przerwy w interpunkcji lub jest monotonicznie rosnący, opadający lub płaski w wypowiedzi, w porównaniu z tekstem odniesienia ReferenceText. Możliwe wartości to None (co oznacza brak błędu w tym słowie), Omission, , InsertionMispronunciation, UnexpectedBreak, MissingBreak, i Monotone.

Inny zestaw parametrów zwracanych przez ocenę wymowy to Przesunięcie (Offset) oraz Czas trwania (Duration) (określany razem jako znacznik czasu). Znacznik czasu mowy jest zwracany w ustrukturyzowanym formacie JSON. Ocena wymowy może obliczyć błędy wymowy na każdym fonemie. Ocena wymowy może również powiązać błędy z konkretnymi znacznikami czasu w wejściowym dźwięku. Klienci tworzący aplikacje mogą korzystać z sygnału, aby zaoferować ścieżkę szkoleniową, aby pomóc uczniom skupić się na błędzie na wiele sposobów. Na przykład aplikacja może wyróżnić oryginalną mowę, odpowiedzieć na dźwięk, aby porównać go ze standardową wymową lub zalecić podobne słowa do praktyki.

Parametr Opis
Przesunięcie Czas (w 100-nanosekundowych jednostkach), w którym rozpoznana mowa rozpoczyna się w strumieniu audio.
Czas trwania Czas trwania (w 100-nanosekundowych jednostkach) rozpoznanej mowy w strumieniu audio.

Przykładowe przypadki użycia

Ocena wymowy może służyć do nauki zdalnej, praktyki egzaminacyjnej lub innych scenariuszy, które wymagają opinii o wymowie. Poniżej przedstawiono przykłady przypadków użycia wdrożonych lub zaprojektowanych dla klientów korzystających z oceny wymowy:

  • Dostawca usług edukacyjnych: dostawcy mogą tworzyć aplikacje korzystające z oceny wymowy, aby pomóc uczniom w zdalnym uczeniu się języka z opiniami w czasie rzeczywistym. Ten przypadek użycia jest typowy, gdy aplikacja musi obsługiwać opinie w czasie rzeczywistym. Obsługujemy strumieniowe przesyłanie plików audio w celu uzyskania natychmiastowej informacji zwrotnej.
  • Edukacja w grze: Deweloperzy aplikacji mogą na przykład tworzyć aplikację do uczenia języka, łącząc kompleksowe lekcje w grach z najnowocześniejszej technologii mowy, aby pomóc dzieciom uczyć się angielskiego. Program może obejmować szeroką gamę umiejętności angielskich, takich jak mówienie, czytanie i słuchanie, a także trenowanie dzieci na gramatyki i słownictwie, a ocena wymowy używana do wspierania dzieci, gdy uczą się mówić po angielsku. Te wiele formatów uczenia się zapewnia, że dzieci uczą się angielskiego z łatwością w oparciu o styl nauki zabawy.
  • Edukacja w aplikacji komunikacyjnej: Microsoft Teams Reading Progress pomaga nauczycielowi w ocenie ustnych zadań ucznia z pomocą automatycznego wykrywania pomijania, wstawiania i błędnej wymowy. Umożliwia również uczniom wygodniejsze ćwiczenie wymowy przed przesłaniem pracy domowej. Microsoft Teams Funkcja śledzenia postępów mówcy jako narzędzie przyspieszające naukę może również wspierać uczniów w rozwijaniu umiejętności prezentacji i wystąpień publicznych.

Zagadnienia dotyczące wybierania innych przypadków użycia

Uczenie się online szybko rosło, gdy szkoły i organizacje dostosowują się do nowych sposobów łączenia się i metod edukacji. Technologia mowy może odgrywać znaczącą rolę w tworzeniu uczenia się na odległość bardziej angażującym i dostępnym dla uczniów ze wszystkich środowisk. Dzięki narzędziom Foundry deweloperzy mogą szybko dodawać możliwości mowy do aplikacji, co umożliwia naukę online.

Jednym z kluczowych elementów uczenia się języka jest poprawa umiejętności wymowy. Dla nowych uczących się języka, praktykowanie wymowy i uzyskiwanie informacji zwrotnej w odpowiednim czasie są niezbędne, aby stać się bardziej płynnym mówcą. W przypadku dostawcy rozwiązań, który stara się wspierać uczniów lub uczniów w uczeniu się języka, możliwość uczenia się w dowolnym momencie, w dowolnym miejscu przy użyciu oceny wymowy byłoby dobrym rozwiązaniem dla tego scenariusza. Można go również zintegrować jako wirtualnego asystenta dla nauczycieli i pomóc w poprawie ich wydajności.

Poniższe zalecenia dotyczą przypadków użycia, w których ocena wymowy powinna być starannie używana:

  • Uwzględnij element ludzki w pętli w przypadku wszystkich formalnych scenariuszy badania: System oceny wymowy korzysta z systemów sztucznej inteligencji, a czynniki zewnętrzne, takie jak jakość głosu i szum tła, mogą wpływać na dokładność. Pętla ludzka w formalnych badaniach zapewnia, że wyniki oceny są zgodnie z oczekiwaniami.
  • Rozważ użycie różnych progów dla każdego scenariusza: Obecnie wynik oceny wymowy reprezentuje tylko odległość podobieństwa do rodzimych użytkowników języka używanych do trenowania modelu. Taką odległość podobieństwa można odwzorować w różnych scenariuszach z warunkami opartymi na regułach lub zliczeniem ważonym, aby pomóc w udzielaniu informacji zwrotnej na temat wymowy. Na przykład metoda klasyfikacji dla uczenia się dzieci może nie być tak ścisła, jak w przypadku uczenia się dorosłych. Rozważ ustawienie wyższego progu wykrywania błędów dla uczenia się dorosłych.
  • Rozważ możliwość uwzględnienia pomyłek: jeśli scenariusz obejmuje odczytywanie długich akapitów, użytkownicy mogą mieć trudności ze śledzeniem tekstu referencyjnego bez popełniania pomyłek. Te błędy, w tym pominięcie, wstawienie i powtórzenie, są liczone jako błędy. Po włączeniu EnableMiscue wyrazy wymawiane będą porównywane z tekstem referencyjnym i zostaną oznaczone jako opuszczenie, wstawienie lub powtórzenie na podstawie tego porównania.

Zagadnienia prawne i prawne: Organizacje muszą ocenić potencjalne konkretne zobowiązania prawne i prawne w przypadku korzystania z narzędzi i rozwiązań usługi Foundry, które mogą nie być odpowiednie do użycia w każdej branży lub scenariuszu. Ponadto, Foundry Tools lub rozwiązania nie są przeznaczone do używania i mogą nie być używane w sposób zabroniony w odpowiednich warunkach świadczenia usług i obowiązujących kodeksach postępowania.