Ocena wymowy w programie AI Studio

Artykuł
09/23/2024

Ważne

Elementy oznaczone (wersja zapoznawcza) w tym artykule są obecnie dostępne w publicznej wersji zapoznawczej. Ta wersja zapoznawcza jest udostępniana bez umowy dotyczącej poziomu usług i nie zalecamy korzystania z niej w przypadku obciążeń produkcyjnych. Niektóre funkcje mogą być nieobsługiwane lub ograniczone. Aby uzyskać więcej informacji, zobacz Uzupełniające warunki korzystania z wersji zapoznawczych platformy Microsoft Azure.

Ocena wymowy używa mowy do funkcji tekstowej, aby zapewnić subiektywne i obiektywne opinie dla uczniów języka. Ćwiczenie wymowy i uzyskiwanie terminowych opinii jest niezbędne do poprawy umiejętności językowych. Oceny prowadzone przez doświadczonych nauczycieli mogą zająć dużo czasu i wysiłku i sprawia, że ocena wysokiej jakości jest kosztowna dla uczniów. Ocena wymowy może pomóc uczynić ocenę języka bardziej wciągającą i dostępną dla uczniów wszystkich środowisk.

Uwaga

Aby uzyskać informacje na temat dostępności oceny wymowy, zobacz obsługiwane języki i dostępne regiony.

W tym artykule opisano sposób korzystania z narzędzia do oceny wymowy bez pisania kodu za pośrednictwem programu AI Studio. Aby uzyskać informacje na temat sposobu integrowania oceny wymowy w aplikacjach mowy, zobacz Jak używać oceny wymowy.

Scenariusze czytania i mówienia

W przypadku oceny wymowy istnieją dwa scenariusze: Czytanie i Mówienie.

Czytanie: Ten scenariusz jest przeznaczony do oceny skryptowej. Wymaga to od ucznia odczytania danego tekstu. Tekst odwołania jest dostarczany z wyprzedzeniem.
Mówiąc: ten scenariusz jest przeznaczony do oceny nieskrypcyjnej. Wymaga to, aby osoba ucząca się mówiła w danym temacie. Tekst odwołania nie jest podany z wyprzedzeniem.

Przeprowadzanie oceny skryptowej

Wykonaj następujące kroki, aby ocenić wymowę tekstu referencyjnego:

Przejdź do pozycji Ocena wymowy w programie AI Studio.
Na karcie Czytanie wybierz obsługiwany język , który chcesz ocenić wymowę.
Możesz użyć aprowizowania przykładów tekstu lub wprowadzić własny skrypt.

Podczas odczytywania tekstu powinno być blisko mikrofonu, aby upewnić się, że zarejestrowany głos nie jest zbyt niski.

W przeciwnym razie możesz przekazać nagrany dźwięk do oceny wymowy. Po pomyślnym przekazaniu dźwięk zostanie automatycznie oceniony przez system, jak pokazano na poniższym zrzucie ekranu.

Przeprowadzanie nieskrypowanej oceny

Jeśli chcesz przeprowadzić nieskrypowaną ocenę, wybierz kartę Mówiąc. Ta funkcja umożliwia przeprowadzanie nieskrypowanej oceny bez wcześniejszego podawania tekstu referencyjnego. Poniżej przedstawiono sposób postępowania:

Przejdź do pozycji Ocena wymowy w programie AI Studio.
Na karcie Mówienie wybierz obsługiwany język , który chcesz ocenić wymowę.
Następnie możesz wybrać przykładowe tematy lub wprowadzić własny temat. Ten wybór umożliwia ocenę możliwości wypowiadania się na danym temacie bez wstępnie zdefiniowanego skryptu.

Podczas rejestrowania mowy w celu oceny wymowy ważne jest, aby czas nagrywania mieścił się w zalecanym zakresie 15 sekund (co odpowiada ponad 50 wyrazom) do 10 minut. Ten zakres czasu jest optymalny do dokładnego oceniania zawartości mowy. Aby otrzymać wynik tematu, dźwięk mówiony powinien zawierać co najmniej trzy zdania.

Możesz również przekazać nagrany dźwięk do oceny wymowy. Po pomyślnym przekazaniu dźwięk jest automatycznie oceniany przez system.

Wyniki oceny wymowy

Po zarejestrowaniu mowy lub przekazaniu nagranego dźwięku wynik oceny będzie wyjściowy. Wynik obejmuje dźwięk mówiony i opinie na temat oceny mowy. Możesz słuchać dźwięku mówionego i pobierać go w razie potrzeby.

Możesz również sprawdzić wynik oceny wymowy w formacie JSON. Wyniki dokładności na poziomie wyrazów, sylable i phoneme są uwzględniane w pliku JSON.

Wyświetlanie
JSON

Zrzut ekranu przedstawiający wynik oceny w oknie wyświetlania, w tym transkrypcję i opinię na temat mowy.

Słowo jest wyróżnione zgodnie z typem błędu. Typy błędów w ocenie wymowy są reprezentowane przy użyciu różnych kolorów. To rozróżnienie wizualne ułatwia identyfikowanie i analizowanie określonych błędów. Zawiera on jasny przegląd typów błędów i częstotliwości w dźwiękach mówionych, pomagając skupić się na obszarach wymagających poprawy. Możesz włączyć/wyłączyć każdy typ błędu, aby skoncentrować się na określonych typach błędów lub wykluczyć niektóre typy z ekranu. Ta funkcja zapewnia elastyczność w sposobie przeglądania i analizowania błędów w dźwięku mówionym. Po umieszczeniu kursora na każdym słowie można zobaczyć wyniki dokładności dla całego słowa lub określonych fonemów.

W dolnej części wyniku oceny są wyświetlane wyniki oceniania. W przypadku oceny wymowy skryptowej zapewniany jest tylko wynik wymowy (w tym wynik dokładności, wynik płynności, wynik kompletności i wynik prosody). W przypadku nieskrypowanej oceny wymowy wyświetlane są zarówno wyniki wymowy (w tym wynik dokładności, wynik płynności i wynik prosody) oraz wynik zawartości (w tym wynik słownictwa, wynik gramatyki i wynik tematu).

Kompletna transkrypcja jest wyświetlana w atrybucie text . Można zobaczyć wyniki dokładności dla całego słowa, sylabsy i określonych fonezy. Te same wyniki można uzyskać przy użyciu zestawu SPEECH SDK. Aby uzyskać informacje, zobacz Jak używać oceny wymowy.

{
    "text": "Today was a beautiful day. We had a great time taking a long long walk in the morning. The countryside was in full bloom, yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain.",
    "duration": 156100000,
    "offset": 800000,
    "json": {
        "Id": "f583d7588c89425d8fce76686c11ed12",
        "RecognitionStatus": 0,
        "Offset": 800000,
        "Duration": 156100000,
        "DisplayText": "Today was a beautiful day. We had a great time taking a long long walk in the morning. The countryside was in full bloom, yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain.",
        "SNR": 40.47014,
        "NBest": [
            {
                "Confidence": 0.97532314,
                "Lexical": "today was a beautiful day we had a great time taking a long long walk in the morning the countryside was in full bloom yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain",
                "ITN": "today was a beautiful day we had a great time taking a long long walk in the morning the countryside was in full bloom yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain",
                "MaskedITN": "today was a beautiful day we had a great time taking a long long walk in the morning the countryside was in full bloom yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain",
                "Display": "Today was a beautiful day. We had a great time taking a long long walk in the morning. The countryside was in full bloom, yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain.",
                "PronunciationAssessment": {
                    "AccuracyScore": 92,
                    "FluencyScore": 81,
                    "CompletenessScore": 93,
                    "PronScore": 85.6
                },
                "Words": [
                    // Words preceding "countryside" are omitted for brevity...
                    {
                        "Word": "countryside",
                        "Offset": 66200000,
                        "Duration": 7900000,
                        "PronunciationAssessment": {
                            "AccuracyScore": 30,
                            "ErrorType": "Mispronunciation"
                        },
                        "Syllables": [
                            {
                                "Syllable": "kahn",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 3
                                },
                                "Offset": 66200000,
                                "Duration": 2700000
                            },
                            {
                                "Syllable": "triy",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 19
                                },
                                "Offset": 69000000,
                                "Duration": 1100000
                            },
                            {
                                "Syllable": "sayd",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 51
                                },
                                "Offset": 70200000,
                                "Duration": 3900000
                            }
                        ],
                        "Phonemes": [
                            {
                                "Phoneme": "k",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 0
                                },
                                "Offset": 66200000,
                                "Duration": 900000
                            },
                            {
                                "Phoneme": "ah",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 0
                                },
                                "Offset": 67200000,
                                "Duration": 1000000
                            },
                            {
                                "Phoneme": "n",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 11
                                },
                                "Offset": 68300000,
                                "Duration": 600000
                            },
                            {
                                "Phoneme": "t",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 16
                                },
                                "Offset": 69000000,
                                "Duration": 300000
                            },
                            {
                                "Phoneme": "r",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 27
                                },
                                "Offset": 69400000,
                                "Duration": 300000
                            },
                            {
                                "Phoneme": "iy",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 15
                                },
                                "Offset": 69800000,
                                "Duration": 300000
                            },
                            {
                                "Phoneme": "s",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 26
                                },
                                "Offset": 70200000,
                                "Duration": 1700000
                            },
                            {
                                "Phoneme": "ay",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 56
                                },
                                "Offset": 72000000,
                                "Duration": 1300000
                            },
                            {
                                "Phoneme": "d",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 100
                                },
                                "Offset": 73400000,
                                "Duration": 700000
                            }
                        ]
                    },
                    // Words following "countryside" are omitted for brevity...
                ]
            }
        ]
    }
}

Stopień szczegółowości oceny wymowy

Ocena wymowy zapewnia różne wyniki oceny w różnych stopniach szczegółowości, od poszczególnych fonemów po całe wprowadzanie tekstu.

Na poziomie pełnotekstowym ocena wymowy oferuje dodatkowe wyniki Fluency, Completeness i Prosody: Fluency wskazuje, jak blisko mowa pasuje do użycia dyskretnych podziałów między wyrazami przez osoby mówiące natywne; Kompletność wskazuje, ile wyrazów jest wymawianych w mowie do wprowadzania tekstu odwołania; Prosody wskazuje, jak dobrze głośnik przekazuje elementy naturalności, wyrazistości i ogólnej prosody w ich przemówieniu. Ogólny wynik zagregowany z dokładności, fluency, completeness i Prosody jest następnie podawany w celu wskazania ogólnej jakości wymowy danej mowy. Ocena wymowy oferuje również wynik zawartości (słownictwo, gramatyka i temat) na poziomie pełnotekstowym.
Na poziomie słowa ocena wymowy może automatycznie wykrywać błędy i zapewniać wynik dokładności jednocześnie, co zapewnia bardziej szczegółowe informacje na temat pomijania, powtórzeń, wstawiania i błędu w danej mowie.
Wyniki dokładności na poziomie sylalnej są obecnie dostępne za pośrednictwem pliku JSON lub zestawu SPEECH SDK.
Na poziomie phoneme ocena wymowy zapewnia wyniki dokładności każdego phoneme, pomagając uczniom lepiej zrozumieć szczegóły wymowy ich mowy.

Oprócz podstawowych wyników dokładności, biegłości i kompletności funkcja oceny wymowy w programie AI Studio zawiera bardziej kompleksowe wyniki, aby przekazać szczegółowe opinie na temat różnych aspektów wydajności mowy i zrozumienia. Ulepszone wyniki są następujące: wynik prosody, wynik słownictwa, wynik gramatyki i wynik tematu. Te wyniki oferują cenny wgląd w prosodię mowy, użycie słownictwa, poprawność gramatyki i zrozumienie tematu.

Zrzut ekranu przedstawiający ogólny wynik wymowy i ogólny wynik zawartości w programie AI Studio.

W dolnej części wyniku oceny są wyświetlane dwa ogólne wyniki: Wynik wymowy i Wynik zawartości. Na karcie Czytanie znajduje się wyświetlany wynik wymowy. Na karcie Mówienie są wyświetlane zarówno wyniki wymowy, jak i wynik zawartości.

Wynik wymowy: ten wynik reprezentuje zagregowaną ocenę jakości wymowy i zawiera cztery podspektywy. Te wyniki są dostępne zarówno na kartach odczytu, jak i mówienia zarówno dla ocen skryptowych, jak i nieskrypcyjnych.

Wynik dokładności: ocenia poprawność wymowy.
Współczynnik płynności: mierzy poziom gładkości i naturalności w mowie.
Wynik kompletności: odzwierciedla liczbę wyrazów wymawianych poprawnie.
Wynik prosody: Ocenia użycie odpowiedniej intonacji, rytmu i stresu. Wprowadzono kilka innych typów błędów związanych z oceną prosody, takich jak Nieoczekiwana przerwa, Brak przerwy i Monotone. Te typy błędów zawierają bardziej szczegółowe informacje o błędach wymowy w porównaniu z poprzednim aparatem.

Wynik zawartości: ten wynik zapewnia zagregowaną ocenę zawartości mowy i obejmuje trzy podspełniki. Ten wynik jest dostępny tylko na karcie mówienie dla nieskrypowanej oceny.

Wynik słownictwa: ocenia skuteczne użycie słów i ich odpowiedniość w danym kontekście w celu dokładnego wyrażania pomysłów oraz poziomu złożoności leksykalnej.
Wynik gramatyki: ocenia poprawność użycia gramatyki i różnych wzorców zdań. Uważa, że dokładność leksykalna, dokładność gramatyczna i różnorodność struktur zdań, zapewniając bardziej kompleksową ocenę biegłości językowej.
Wynik tematu: ocenia poziom zrozumienia i zaangażowania w temat omówiony w przemówieniu. Ocenia zdolność osoby mówiącej do skutecznego wyrażania myśli i pomysłów związanych z danym tematem.

Te ogólne wyniki oferują kompleksową ocenę wymowy i treści, zapewniając uczniom cenne opinie na temat różnych aspektów ich wydajności mowy i zrozumienia. Dzięki tym rozszerzonym funkcjom uczniowie języka mogą uzyskać lepszy wgląd w ich zalety i obszary poprawy wymowy i wyrażenia zawartości.

Uwaga

Oceny zawartości i prosody są dostępne tylko w ustawieniach regionalnych en-US .

Oceny w trybie przesyłania strumieniowego

Ocena wymowy obsługuje nieprzerwany tryb przesyłania strumieniowego. Pokaz AI Studio umożliwia do 60 minut nagrywania w trybie przesyłania strumieniowego na potrzeby oceny. Tak długo, jak nie naciskasz przycisku zatrzymaj nagrywanie, proces oceny nie zostanie zakończony i można wstrzymywać i wznawiać ocenę wygodnie.

Ocena wymowy ocenia kilka aspektów wymowy. W dolnej części wyniku oceny można zobaczyć wynik wymowy jako zagregowany ogólny wynik, który obejmuje 4 podsekty: wynik dokładności, wynik fluency, wynik kompletności i wynik Prosody. W trybie przesyłania strumieniowego, ponieważ wynik dokładności, współczynnik fluency i wynik Prosody będą się różnić w czasie w całym procesie nagrywania, pokazujemy podejście w programie AI Studio, aby wyświetlić przybliżony ogólny wynik przyrostowo przed końcem oceny, który ważony jest tylko z wynikiem dokładności, wynikiem fluency i wynikiem Prosody. Wynik kompletności jest obliczany tylko na końcu oceny po naciśnięciu przycisku stop, więc końcowy wynik ogólny wymowy jest agregowany z wyniku dokładności, wyniku fluency score, Completeness score i Prosody wynik z wagą.

Zapoznaj się z poniższymi przykładami pokazu, aby zapoznać się z całym procesem oceny wymowy w trybie przesyłania strumieniowego.

Rozpocznij nagrywanie

Gdy zaczniesz nagrywać, wyniki na dole zaczynają się zmieniać z 0.

Podczas nagrywania

Podczas nagrywania długiego akapitu można w dowolnym momencie wstrzymać nagrywanie. Możesz nadal oceniać nagranie, o ile nie naciskasz przycisku zatrzymaj.

Zakończ nagrywanie

Po naciśnięciu przycisku zatrzymania zobaczysz wynik wymowy, wynik dokładności, wynik fluency, wynik kompletności i wynik Prosody u dołu.

Cennik

W ramach planu bazowego użycie oceny wymowy kosztuje to samo, co zamiana mowy na tekst w przypadku cen warstwy płatności zgodnie z rzeczywistym użyciem lub warstwy zobowiązania. Jeśli zakupisz warstwę zobowiązania dla zamiany mowy na tekst, wydatki na ocenę wymowy idą w kierunku spełnienia zobowiązania.

Funkcja oceny wymowy oferuje również inne wyniki, które nie są uwzględnione w zamian za mowę bazową na cenę tekstu: prosody, gramatyka, temat i słownictwo. Te wyniki są dostępne jako dodatek powyżej ceny mowy bazowej do ceny tekstu. Aby uzyskać informacje o cenach, zobacz cennik zamiany mowy na tekst.

Oto tabela dostępnych ocen wymowy, niezależnie od tego, czy jest dostępna w ocenach skryptowych, czy nieskrypcyjnych oraz czy jest uwzględniona w zamian za mowę bazową na cenę tekstową, czy też cenę dodatku.

Wynik	Skryptowe lub nieskrypcyjne	Uwzględniona w cenie zamiany mowy na tekst wg planu bazowego?
Dokładność	Skrypty i bez skryptów	Tak
Płynność	Skrypty i bez skryptów	Tak
Kompletność	Skryptów	Tak
Błąd	Skrypty i bez skryptów	Tak
Prozodia	Skrypty i bez skryptów	Nie.
Gramatyka	Tylko bez skryptu	Nie.
Temat	Tylko bez skryptu	Nie.
Słownictwo	Tylko bez skryptu	Nie.

Odpowiedzialne AI

System sztucznej inteligencji obejmuje nie tylko technologię, ale także osoby, które z niej korzystają, osoby, których to dotyczy, oraz środowisko, w którym jest wdrażane. Zapoznaj się z uwagami dotyczącymi przejrzystości, aby dowiedzieć się więcej na temat odpowiedzialnego używania sztucznej inteligencji i wdrażania w systemach.

Następne kroki

Używanie oceny wymowy z zestawem SPEECH SDK
Przeczytaj blog na temat przypadków użycia

Udostępnij za pośrednictwem