Przypadki użycia zamiany mowy na tekst

Ważne

Tłumaczenia nieanglojęzyczne są dostępne tylko dla wygody. Zapoznaj się zEN-US wersją tego dokumentu, aby uzyskać ostateczną wersję.

Co to jest notatka dotycząca przezroczystości?

System sztucznej inteligencji obejmuje nie tylko technologię, ale także osoby, które będą jej używać, osoby, których to dotyczy, oraz środowisko, w którym jest wdrażana. Utworzenie systemu dopasowanego do zamierzonego celu wymaga zrozumienia, jak działa technologia, jakie są jej możliwości i ograniczenia oraz jak osiągnąć najlepszą wydajność. Notatki dotyczące przejrzystości Microsoftu mają na celu pomóc w zrozumieniu, jak działa nasza technologia sztucznej inteligencji, jakie wybory mogą podejmować właściciele systemu, które wpływają na wydajność i zachowanie systemu, oraz podkreślić znaczenie uwzględniania całego systemu, w tym technologii, ludzi i środowiska. Możesz użyć notatek przezroczystości podczas opracowywania lub wdrażania własnego systemu lub udostępniać je osobom, które będą korzystać z systemu lub mają na nie wpływ.

Uwagi dotyczące przejrzystości Microsoft są częścią szerszego wysiłku firmy, aby w praktyce wprowadzić nasze zasady sztucznej inteligencji. Aby dowiedzieć się więcej, zobacz Microsoft zasady sztucznej inteligencji.

Podstawy zamiany mowy na tekst

Zamiana mowy na tekst, znana również jako automatyczne rozpoznawanie mowy (ASR), jest funkcją w ramach usługi Azure Speech w narzędziach Foundry, która jest częścią narzędzi Foundry. Zamiana mowy na tekst konwertuje dźwięk mówiony na tekst. Zamiana mowy na tekst w Azure obsługuje ponad 140 ustawień regionalnych dla danych wejściowych. Aby uzyskać najnowszą listę obsługiwanych ustawień regionalnych, zobacz Obsługa języka i głosu dla usługi Mowa.

Kluczowe terminy

Termin Definicji
Wejście audio Przesyłane strumieniowo dane audio lub plik audio, który jest używany jako dane wejściowe dla funkcji zamiany mowy na tekst. Dane wejściowe audio mogą zawierać nie tylko głos, ale także ciszę i dźwięki inne niż mowa. Zamiana mowy na tekst generuje tekst dla części głosowych danych wejściowych audio.
Wypowiedź Składnik danych wejściowych audio, który zawiera ludzki głos. Jedna wypowiedź może składać się z jednego słowa lub wielu wyrazów, takich jak fraza.
Transkrypcja Tekstowy wynik zamiany mowy na tekst. Ten automatycznie generowany tekst opiera się na modelach mowy i jest czasami nazywany transkrypcją maszynową lub automatycznym rozpoznawaniem mowy (ASR). Transkrypcja w tym kontekście jest w pełni zautomatyzowana i dlatego różni się od transkrypcji ludzkiej, czyli tekstu generowanego przez osoby transkrypcyjne.
Model mowy Automatycznie wygenerowana, nauczona maszynowo liczbowa reprezentacja wypowiedzi, która służy do wnioskowania transkrypcji z danych wejściowych audio. Modele mowy są trenowane na danych głosowych, które obejmują różne style mowy, języki, akcenty, dialekty i intonacje oraz odmiany akustyczne generowane przy użyciu różnych typów urządzeń rejestrujących. Model mowy numerycznie reprezentuje zarówno cechy akustyczne, jak i językowe, które służą do przewidywania, jaki tekst powinien być skojarzony z wypowiedzią.
Interfejs API w czasie rzeczywistym Interfejs API, który akceptuje żądania z danymi wejściowymi audio i zwraca odpowiedź w czasie rzeczywistym z transkrypcją w ramach tego samego połączenia sieciowego.
Interfejs API wykrywania języka Typ interfejsu API w czasie rzeczywistym, który wykrywa język używany w sygnale audio. Język jest wnioskowany na podstawie głosu w wejściu audio.
Interfejs API tłumaczenia mowy Inny typ interfejsu API w czasie rzeczywistym, który generuje transkrypcje danych wejściowych audio, a następnie tłumaczy je na język określony przez użytkownika. Jest to kaskadowa usługa zintegrowana z usługami rozpoznawania mowy i tłumaczenia tekstu w usłudze Translator.
Batch API Usługa używana do wysyłania danych wejściowych audio do transkrypcji w późniejszym czasie. Należy określić lokalizację plików audio i innych parametrów, takich jak język rozpoznawania. Usługa ładuje dane wejściowe audio asynchronicznie i transkrybuje je. Po zakończeniu transkrypcji pliki tekstowe są ładowane z powrotem do określonej lokalizacji.
Diarization (diaryzacja) Diarization odpowiada na pytanie, kto mówił i kiedy. Rozróżnia głośniki w wejściach dźwiękowych na podstawie ich cech głosowych. Zarówno interfejsy API w czasie rzeczywistym, jak i wsadowe obsługują rozpoznawanie mówców i mogą różnicować głosy osób mówiących na nagraniach jednokanałowych. Diarization jest łączona z funkcją zamiany mowy na tekst, aby zapewnić transkrypcje zawierające wpis osoby mówiącej dla każdego transkrybowanego segmentu. Dane wyjściowe transkrypcji są oznaczone jako GUEST1, GUEST2, GUEST3 itp. na podstawie liczby osób mówiących w konwersacji audio.
Współczynnik błędu słowa (WER) Wskaźnik błędów słownych (WER) jest standardem branżowym mierzenia dokładności przetwarzania mowy na tekst. WER zlicza niepoprawne wyrazy, które są identyfikowane podczas rozpoznawania. Następnie dzieli ją łączna liczba wyrazów podanych w poprawnej transkrypcji (często tworzona przez etykietowanie przez człowieka).
Współczynnik błędów tokenu (TER) Współczynnik błędów tokenu (TER) to miara poprawności końcowego rozpoznawania wyrazów, wielkości liter, interpunkcji itd. w porównaniu z tokenami podanymi w poprawnej transkrypcji (często tworzonej przez etykietowanie przez człowieka).
Opóźnienie środowiska uruchomieniowego W przypadku zamiany mowy na tekst opóźnienie to czas między danymi wejściowymi dźwięku mowy a danymi wyjściowymi wyniku transkrypcji.
współczynnik błędów dyskretyzacji słów (WDER) Współczynnik błędów diaryzacji słów (WDER) zlicza liczbę błędów w przypisywaniu słów do niewłaściwego mówcy w porównaniu z prawdą podstawową. Niższa stawka WDER wskazuje lepszą jakość.

Możliwości

Zachowanie systemu

Poniżej przedstawiamy główne sposoby korzystania z naszej usługi zamiany mowy na tekst.

Interfejs API konwersji mowy na tekst w czasie rzeczywistym

Jest to typowe wywołanie interfejsu API za pośrednictwem zestawu SPEECH SDK lub interfejsu API REST w celu wysyłania danych wejściowych audio i odbierania transkrypcji tekstu w czasie rzeczywistym. System mowy używa modelu mowy do rozpoznawania wypowiedzi w wejściowym dźwięku. Podczas zamiany mowy w czasie rzeczywistym na tekst system pobiera strumień audio jako dane wejściowe i stale określa najbardziej prawdopodobną sekwencję słów, które wyprodukowały dźwięk obserwowany do tej pory. Model jest trenowany na dużej ilości zróżnicowanego dźwięku w typowych scenariuszach użycia i szerokiej gamie głośników. Na przykład ta funkcja jest często używana w przypadku zapytań lub dyktowania z obsługą głosu w usłudze lub aplikacji organizacji.

Interfejs API transkrypcji wsadowej

Transkrypcja wsadowa to inny typ wywołania interfejsu API. Zazwyczaj służy do wysyłania wstępnie zapisanych danych wejściowych audio i odbierania transkrypcji tekstu asynchronicznie (czyli w późniejszym czasie). Aby użyć tego interfejsu API, można określić lokalizacje dla wielu plików audio. Technologia zamiany mowy na tekst odczytuje dane wejściowe audio z pliku i generuje pliki tekstowe transkrypcji, które są zwracane do określonej lokalizacji przechowywania. Ta funkcja jest używana do obsługi większych zadań transkrypcji, w których nie jest konieczne zapewnienie użytkownikom końcowym zawartości transkrypcji w czasie rzeczywistym. Przykładem jest transkrypcja nagrań centrum telefonicznego w celu uzyskania wglądu w wydajność klientów i agenta centrum telefonicznego.

** Kiedy korzystasz z transkrypcji wsadowej, możesz wybrać użycie modelu Whisper zamiast domyślnego modelu Azure Speech to text. Aby określić, czy model Whisper odpowiada Twoim potrzebom, możesz porównać, jak dane wyjściowe różnią się między tymi modelami w serii. Wypróbuj go w programie Speech Studio, a następnie wykonaj dokładniejsze oceny, korzystając z możliwości testowania za pomocą niestandardowej mowy. Należy pamiętać, że model Whisper jest również dostępny poprzez Azure OpenAI.

Interfejs API tłumaczenia mowy

Ten interfejs API konwertuje dane wejściowe audio na tekst, a następnie tłumaczy go na inny język. Przetłumaczone dane wyjściowe transkrypcji mogą być zwracane w formacie tekstowym lub można wybrać, że tekst jest syntetyzowany w słyszalną mowę przy użyciu tekstu na mowę. Aby uzyskać więcej informacji, zobacz What is Azure Translator in Foundry Tools?

Funkcje podrzędne i opcje

Powyższe interfejsy API mogą opcjonalnie używać następujących funkcji podrzędnych:

  • Dostosowywanie modelu: Azure Speech umożliwia deweloperom dostosowywanie modeli mowy na tekst w celu zwiększenia dokładności rozpoznawania w określonym scenariuszu. Istnieją dwa sposoby dostosowywania mowy do tekstu:
  • Wykrywanie języka: w przeciwieństwie do domyślnego wywołania interfejsu API, w którym należy wcześniej określić język lub ustawienia regionalne dla danych wejściowych audio, przy użyciu wykrywania języka można określić wiele ustawień regionalnych i umożliwić usłudze wykrywanie, który język powinien być używany do rozpoznawania określonej części dźwięku.
  • Diarization: ta funkcja jest domyślnie wyłączona. Jeśli zdecydujesz się włączyć tę funkcję, usługa rozróżnia wypowiedzi różnych osób mówiących. Wynikowy tekst transkrypcji zawiera właściwość "głośnika", która wskazuje GUEST1, GUEST2, GUEST3 itd., co oznacza, który głośnik mówi w pliku audio.

Przypadki użycia

Zamiana mowy na tekst może oferować różne sposoby interakcji użytkowników z aplikacjami i urządzeniami. Zamiast wpisywać wyrazy na klawiaturze lub używać ich rąk do interakcji z ekranem dotykowym, technologia zamiany mowy na tekst umożliwia użytkownikom obsługę aplikacji i urządzeń za pomocą głosu i dyktowania.

  • Inteligentni asystenci: firmy, które opracowują inteligentne asystenty na urządzeniach, samochodach i domach, mogą używać mowy do tekstu, aby umożliwić naturalne zapytania wyszukiwania interfejsu lub wyzwalać niektóre funkcje za pomocą głosu. Jest to nazywane _dowodzenie-i-kontrola.
  • Czatboty: firmy mogą tworzyć aplikacje czatbotów, w których użytkownicy mogą korzystać z zapytań lub poleceń z obsługą głosu do interakcji z botami.
  • Wpisywanie głosu: aplikacje mogą zezwalać użytkownikom na używanie głosu w celu dyktowania tekstu długiego. Wpisywanie głosu może służyć do wprowadzania tekstu na potrzeby wiadomości, wiadomości e-mail i dokumentów.
  • Polecenie głosowe: użytkownicy mogą wyzwalać określone akcje za pomocą głosu (polecenia i sterowania). Dwa typowe przykłady to wprowadzanie tekstu zapytania według głosu i wybieranie elementu menu według głosu.
  • Tłumaczenie głosowe: możesz używać technologii zamiany mowy na tekst, aby komunikować się głosowo z innymi użytkownikami, którzy mówią w różnych językach. Tłumaczenie mowy umożliwia komunikację głosową w wielu językach. Zobacz aktualną listę obsługiwanych lokalizacji w Obsługę języka i głosu dla usługi Speech.
  • Transkrypcje centrum telefonicznego: firmy często rejestrują rozmowy z użytkownikami w scenariuszach, takich jak połączenia pomocy technicznej klienta. Nagrania audio można wysyłać do interfejsu API wsadowego na potrzeby transkrypcji.
  • Dyktowanie wielojęzyczne: użytkownicy mogą korzystać z technologii rozpoznawania mowy do dyktowania w wielu językach. Przy użyciu wykrywania języka aplikacja dyktowania może automatycznie wykrywać języki mówione i odpowiednio transkrybować bez konieczności określania języka, w którym mówią użytkownicy.
  • Transkrypcja konwersacji na żywo: gdy wszyscy prelegenci znajdują się w tym samym pokoju, używając konfiguracji z jednym mikrofonem, wykonaj transkrypcję na żywo dotyczącą tego, który prelegent (gość1, gość2, gość3 itd.) wypowiada każde stwierdzenie.
  • Transkrypcja konwersacji wstępnie zarejestrowanego dźwięku: po nagraniu dźwięku z wieloma mówcami można użyć naszej usługi, aby uzyskać transkrypcję, który mówca (Gość1, Gość2, Gość3 itd.) wypowiada każdą wypowiedź.

Zagadnienia dotyczące wybierania innych przypadków użycia

Interfejs API zamiany mowy na tekst oferuje wygodne opcje tworzenia aplikacji z obsługą głosu, ale bardzo ważne jest, aby wziąć pod uwagę kontekst, w którym zostanie zintegrowany interfejs API. Musisz upewnić się, że przestrzegasz wszystkich przepisów prawa i przepisów mających zastosowanie do aplikacji. Obejmuje to zrozumienie zobowiązań wynikających z przepisów dotyczących prywatności i komunikacji, w tym krajowych i regionalnych prywatności, podsłuchów i przepisów dotyczących podsłuchów, które mają zastosowanie do Twojej jurysdykcji. Zbieraj i przetwarzaj tylko dźwięk, który mieści się w uzasadnionych oczekiwaniach użytkowników. Obejmuje to zapewnienie, że masz wszystkie niezbędne i odpowiednie zgody od użytkowników w celu zbierania, przetwarzania i przechowywania ich danych dźwiękowych.

Wiele aplikacji jest zaprojektowanych i przeznaczonych do użycia przez określonego użytkownika na potrzeby zapytań, poleceń lub dyktowania z obsługą głosu. Jednak mikrofon aplikacji może odbierać dźwięk lub głos od użytkowników niebędących użytkownikami podstawowymi. Aby uniknąć niezamierzonego przechwytywania głosów użytkowników niebędących użytkownikami podstawowymi, należy wziąć pod uwagę następujące informacje:

  • Zagadnienia dotyczące mikrofonu: często nie można kontrolować, kto może mówić w pobliżu urządzenia wejściowego, które przesyła dane audio do usługi zamiany mowy na tekst w chmurze. Należy zachęcić użytkowników do podejmowania dodatkowych starań, gdy korzystają z funkcji i aplikacji z obsługą głosu w środowisku publicznym lub otwartym, w którym głosy innych osób mogą być łatwo przechwytywane.
  • Zamieniaj mowę na tekst tylko w aplikacjach i funkcjach, które odpowiadają uzasadnionym oczekiwaniom użytkowników: dane audio zawierające wypowiedzi osoby są danymi osobowymi. Zamiana mowy na tekst nie jest przeznaczona do wykorzystania w celach tajnej inwigilacji audio, w sposób naruszający wymagania prawne, ani w aplikacjach i urządzeniach stosowanych w miejscach publicznych lub lokalizacjach, gdzie użytkownicy mogą mieć uzasadnione oczekiwania dotyczące prywatności. Usługa rozpoznawania mowy służy tylko do zbierania i przetwarzania dźwięku w sposób, który mieści się w uzasadnionych oczekiwaniach użytkowników. Obejmuje to zapewnienie, że masz wszystkie niezbędne i odpowiednie zgody od użytkowników w celu zbierania, przetwarzania i przechowywania ich danych dźwiękowych.
  • Azure usługa rozpoznawania mowy i integracja modelu Whisper: Model Whisper rozszerza usługę rozpoznawania mowy Azure o zaawansowane funkcje, takie jak rozpoznawanie wielu języków i czytelność. Usługa rozpoznawania mowy wzbogaca również wydajność modelu Whisper przez włączenie transkrypcji wsadowych na większą skalę i diaryzacji mówców. Czy użyć domyślnego modelu rozpoznawania mowy na tekst w usłudze czy modelu Whisper, zależy od konkretnego przypadku użycia. Zalecamy skorzystanie z wsadowej wersji próbnej i niestandardowych doświadczeń mowy w usłudze Speech Studio, aby ocenić obie opcje i znaleźć najlepsze dopasowanie do potrzeb biznesowych.
  • Transkrypcja konwersacji na wcześniej nagranych wydarzeniach: system będzie działać lepiej, jeśli wszyscy mówcy są w tym samym środowisku akustycznym (na przykład rozmowa toczy się w pokoju, gdzie wszyscy mówią do jednego mikrofonu).
  • Transkrypcja konwersacji: chociaż liczba osób mówiących w konwersacji nie ma ograniczeń, system działa lepiej, gdy liczba osób mówiących jest poniżej 30.
  • Zagadnienia prawne i prawne: Organizacje muszą ocenić potencjalne konkretne zobowiązania prawne i prawne w przypadku korzystania z narzędzi i rozwiązań usługi Foundry, które mogą nie być odpowiednie do użycia w każdej branży lub scenariuszu. Ponadto, Foundry Tools lub rozwiązania nie są przeznaczone do używania i mogą nie być używane w sposób zabroniony w odpowiednich warunkach świadczenia usług i obowiązujących kodeksach postępowania.

Nieobsługiwane zastosowania

  • Transkrypcja konwersacji z rozpoznawaniem osoby mówiącej: usługa rozpoznawania mowy nie jest przeznaczona do zapewniania diaryzacji z rozpoznawaniem osoby mówiącej i nie może być używana do identyfikowania osób. Innymi słowy, prelegenci będą prezentowani jako gość1, gość2, gość3 itd. w transkrypcji. Zostaną one losowo przypisane i mogą nie być używane do identyfikowania poszczególnych osób mówiących w konwersacji. Dla każdej transkrypcji konwersacji przypisanie gościa1, gościa 2, gościa3 itd. będzie losowe.

Aby zapobiec wszelkim potencjalnym nadużyciom usługi rozpoznawania mowy w celach identyfikacyjnych, ponosisz odpowiedzialność za zapewnienie korzystania z usługi, w tym funkcji diaryzacji, tylko w przypadku obsługiwanych zastosowań oraz że masz odpowiednią podstawę prawną i wszelkie wymagane zgody dla wszystkich zastosowań usługi.

Ograniczenia

Zamiana mowy na tekst rozpoznaje to, co jest mówione w danych wejściowych audio, a następnie generuje transkrypcję. Wymaga to prawidłowej konfiguracji oczekiwanych języków używanych w wejściu audio oraz stylów mówienia. Nie optymalne ustawienia mogą prowadzić do obniżenia dokładności.

Ograniczenia techniczne, czynniki operacyjne i zakresy

Język dokładności

Standardem branżowym mierzenia dokładności mowy na tekst jest współczynnik błędów słów (WER). Aby zrozumieć szczegółowe obliczanie WER, zobacz Przetestuj dokładność niestandardowego modelu mowy.

Dokładność transkrypcji i ograniczenia systemowe

Zamiana mowy na tekst używa ujednoliconego modelu uczenia maszynowego rozpoznawania mowy do transkrypcji wypowiedzi w wielu różnych kontekstach i obszarach tematycznych, w tym zarządzania poleceniami, dyktowania i konwersacji. Nie musisz rozważać używania różnych modeli dla scenariuszy aplikacji lub funkcji.

Należy jednak określić język lub ustawienia regionalne dla każdego wejścia audio. Język lub ustawienia regionalne muszą być zgodne z rzeczywistym językiem używanym w głosie wejściowym. Aby uzyskać więcej informacji, zobacz listę obsługiwanych ustawień regionalnych.

Wiele czynników może prowadzić do mniejszej dokładności w transkrypcji:

  • Jakość akustyczna: Aplikacje i urządzenia obsługujące mowę do tekstu mogą używać różnych typów mikrofonów i specyfikacji. Ujednolicone modele mowy zostały utworzone na podstawie różnych scenariuszy urządzeń audio głosowych, takich jak telefony, telefony komórkowe i urządzenia głośnikowe. Jednak jakość głosu może być obniżona przez sposób, w jaki użytkownik mówi do mikrofonu, nawet jeśli używa wysokiej jakości mikrofonu. Jeśli na przykład głośnik znajduje się daleko od mikrofonu, jakość danych wejściowych będzie zbyt niska. Głośnik, który jest zbyt blisko mikrofonu, może również spowodować pogorszenie jakości dźwięku. Oba przypadki mogą niekorzystnie wpływać na dokładność zamiany mowy na tekst.
  • Szum bez mowy: Jeśli dźwięk wejściowy zawiera określony poziom szumu, ma to wpływ na dokładność. Szum może pochodzić z urządzeń audio używanych do nagrywania lub sam dźwięk wejściowy może zawierać szum, taki jak szum tła lub szum środowiska.
  • Nakładająca się mowa: Może istnieć wielu mówców w zasięgu urządzenia audio, którzy mogą mówić w tym samym czasie. Ponadto inni prelegenci mogą mówić w tle, gdy główny użytkownik mówi.
  • Słowniki: Model transkrypcji mowy na tekst został wytrenowany na szerokiej gamie jednostek leksykalnych w wielu domenach. Jednak użytkownicy mogą mówić terminy specyficzne dla organizacji i żargon, które nie są w standardowym słownictwie. Jeśli w dźwięku pojawi się słowo, które nie istnieje w modelu, wynik jest błędem w transkrypcji.
  • Akcenty: Nawet w jednej lokalizacji, w języku angielskim (en-US), wiele osób ma różne akcenty. Bardzo konkretne akcenty mogą również prowadzić do błędu w transkrypcji.
  • Niezgodne ustawienia regionalne: Użytkownicy mogą nie mówić w językach, których oczekujesz. Jeśli określono język angielski — Stany Zjednoczone (en-US) dla danych wejściowych dźwiękowych, ale głośnik mówił w języku szwedzkim, na przykład dokładność zostanie zmniejszona.
  • Błędy wstawiania: czasami modele zamiany mowy na tekst mogą powodować błędy wstawiania w obecności szumu lub cichej mowy w tle. Jest to ograniczone w przypadku korzystania z usługi Mowa, ale jest nieco częstsze w przypadku korzystania z modelu Whisper, jak określono na karcie modelu OpenAI.

Ze względu na te wariacje akustyczne i językowe należy oczekiwać pewnego poziomu niedokładności w tekście wyjściowym podczas projektowania aplikacji.

Wydajność systemu

Wydajność systemu jest mierzona przez te kluczowe czynniki (z punktu widzenia użytkownika):

  • współczynnik błędów Word (WER)
  • Współczynnik błędów tokenu (TER)
  • Opóźnienie środowiska uruchomieniowego

Model jest uważany za lepszy tylko wtedy, gdy pokazuje znaczące ulepszenia (takie jak 5% względnej poprawy WER) we wszystkich scenariuszach (takich jak transkrypcja mowy konwersacji, transkrypcja połączeń w centrach obsługi, dyktowanie i korzystanie z asystenta głosowego), jednocześnie spełniając cele dotyczące wykorzystania zasobów i opóźnienia odpowiedzi.

W przypadku diaryzacji mierzymy jakość przy użyciu współczynnika błędów diaryzacji wyrazów (WDER). Im niższe WDER, tym lepsza jakość diaryzacji.

Najlepsze rozwiązania dotyczące poprawy wydajności systemu

Jak opisano wcześniej, warunki akustyczne, takie jak szum tła, rozmowy poboczne, odległość od mikrofonu, style i charakterystyki mowy mogą negatywnie wpłynąć na dokładność rozpoznawania.

Aby uzyskać lepsze doświadczenia głosowe, należy wziąć pod uwagę następujące zasady projektowania aplikacji lub usługi:

  • Projektowanie interfejsów użytkownika w celu dopasowania ustawień regionalnych danych wejściowych: Niezgodność ustawień regionalnych zmniejsza dokładność. Zestaw SPEECH SDK obsługuje automatyczne wykrywanie języka, ale wykrywa tylko jedno z czterech ustawień regionalnych określonych w czasie wykonywania. Nadal musisz znać język, w którym będą mówić użytkownicy. Interfejs użytkownika powinien wyraźnie wskazywać języki, w których użytkownicy mogą mówić za pośrednictwem listy rozwijanej zawierającej obsługiwane języki. Aby uzyskać więcej informacji, zobacz obsługiwane ustawienia regionalne.
  • Zezwalaj użytkownikom na ponowną próbę: Błąd rozpoznania może wystąpić z powodu tymczasowego problemu, takiego jak niejasna lub szybka mowa albo długa pauza. Jeśli aplikacja oczekuje określonych transkrypcji, takich jak wstępnie zdefiniowane polecenia akcji, takie jak "Tak" i "Nie" i nie otrzyma żadnego z nich, użytkownicy powinni mieć możliwość ponownego wypróbowania. Typową metodą jest powiedzenie użytkownikom: "Niestety, nie dostałem tego. Spróbuj ponownie".
  • Przed podjęciem akcji przez głos potwierdź: Podobnie jak w przypadku interfejsów użytkownika opartych na klawiaturze, opartych na kliknięciu lub naciśnięciu, jeśli dane wejściowe audio mogą wyzwolić akcję, użytkownicy powinni mieć możliwość potwierdzenia akcji, zwłaszcza poprzez wyświetlanie lub odtwarzanie rozpoznanych lub transkrypcji. Typowym przykładem jest wysyłanie wiadomości SMS za pomocą głosu. Aplikacja powtarza to, co zostało rozpoznane i prosi o potwierdzenie: "Powiedziałeś: "Dziękuję". Wyślij go lub zmień?"
  • Dodaj słownictwo niestandardowe: Ogólny model rozpoznawania mowy dostarczany przez mowę do tekstu obejmuje szerokie słownictwo. Jednak żargon specyficzny dla scenariusza i nazwane jednostki (na przykład nazwy osób i nazwy produktów) mogą być niedostatecznie reprezentowane. Słowa i frazy, które mogą być wypowiadane, mogą się znacznie różnić w zależności od scenariusza. Jeśli możesz przewidzieć, które wyrazy i frazy będą wypowiadane (na przykład gdy użytkownik wybierze element z listy), możesz użyć gramatyki listy fraz. Aby uzyskać więcej informacji, zobacz "Poprawa dokładności rozpoznawania" w temacie Wprowadzenie do zamiany mowy na tekst.
  • Użyj mowy niestandardowej: Jeśli dokładność zamiany mowy na tekst w scenariuszach aplikacji pozostaje niska, warto rozważyć dostosowanie modelu pod kątem odmian akustycznych i językowych. Możesz tworzyć własne modele, szkoląc je przy użyciu własnych danych dźwiękowych lub danych tekstowych. Aby uzyskać szczegółowe informacje, zobacz custom speech (Mowa niestandardowa).

Ocena mowy na tekst

Model zamiany mowy na tekst jest oceniany przez testowanie. Celem testowania jest potwierdzenie, że model działa dobrze w każdym z kluczowych scenariuszy i w powszechnych warunkach dźwiękowych oraz że osiągamy nasze cele sprawiedliwości we wszystkich czynnikach demograficznych.

Metody oceny

Do oceny modelu używane są zestawy danych testowych. Zarówno test regresji, jak i test wydajnościowy modelu są uruchamiane przed każdym wdrożeniem modelu. Kluczowe metryki dla testów regresji to WER, TER, WDER (jeśli diarizacja jest włączona podczas zamiany mowy na tekst) oraz opóźnienie na poziomie 90. percentyla.

Wyniki oceny

Staramy się dostarczać wszystkie aktualizacje modelu bez regresji (czyli zaktualizowany model powinien poprawić tylko bieżący model produkcyjny). Każdy kandydat jest porównywany bezpośrednio z bieżącym modelem produkcyjnym. Aby rozważyć model do wdrożenia, musimy zaobserwować co najmniej 5% względną poprawę WER w porównaniu do bieżącego modelu produkcyjnego.

Modele zamiany mowy na tekst są trenowane i dostrojone przy użyciu dźwięku głosowego, który ma odmiany, w tym:

  • Mikrofony i specyfikacje urządzeń
  • Środowisko mowy
  • Scenariusze mowy
  • Języki i akcenty prelegentów
  • Wiek i płeć osób mówiących
  • Pochodzenie etniczne prelegentów

W przypadku diaryzacji są używane dodatkowe odmiany danych:

  • Czas mówienia każdego prelegenta
  • Liczba prelegentów
  • Emocjonalna mowa, która zmienia wysokość i barwę głosu

System przetwarzania mowy na tekst transkrybuje wypowiedziane słowa użytkownika na tekst, który następnie może być używany przez system dialogowy z rozumieniem języka naturalnego lub do analiz, takich jak podsumowania lub analiza tonacji.

Zagadnienia dotyczące sprawiedliwości

W Microsoft staramy się wspierać każdą osobę na świecie, aby osiągnąć więcej. Istotną częścią tego celu jest stworzenie technologii i produktów, które są sprawiedliwe i inkluzywne. Sprawiedliwość to wielowymiarowy, socjotechniczny temat i ma wpływ na wiele różnych aspektów rozwoju naszego produktu. Dowiedz się więcej o podejście Microsoft do sprawiedliwości.

Jednym z wymiarów, które musimy wziąć pod uwagę, jest to, jak dobrze działa system dla różnych grup osób. Badania wykazały, że bez świadomego wysiłku koncentrującego się na poprawie wydajności wszystkich grup, często może się zdarzyć, że wydajność systemu sztucznej inteligencji różniła się w zależności od grup na podstawie czynników, takich jak rasa, pochodzenie etniczne, region, płeć i wiek.

Każda wersja modelu zamiany mowy na tekst jest testowana i oceniana pod kątem różnych zestawów testów, aby upewnić się, że model może działać bez dużej luki w każdym z kryteriów oceny. Wkrótce pojawią się bardziej szczegółowe wyniki uczciwości.

Ocenianie i integrowanie mowy z tekstem do użycia

Wydajność zamiany mowy na tekst będzie się różnić w zależności od rzeczywistych zastosowań i warunków, które implementujesz. Aby zapewnić optymalną wydajność w swoim przypadku, należy przeprowadzić własne oceny rozwiązań, które implementujesz, przy użyciu rozpoznawania mowy.

Testowy zestaw danych głosowych powinien składać się z rzeczywistych danych wejściowych głosowych zebranych w aplikacjach w środowisku produkcyjnym. Należy losowo próbkować dane w celu odzwierciedlenia rzeczywistych zmian użytkowników w określonym przedziale czasu. Ponadto zestaw danych testowych powinien być okresowo odświeżany w celu odzwierciedlenia zmian w odmianach.

Wskazówki dotyczące integracji i odpowiedzialnego używania mowy do tekstu

Ponieważ Microsoft pomaga klientom w odpowiedzialnym tworzeniu i wdrażaniu rozwiązań przy użyciu zamiany mowy na tekst, stosujemy podejście, które wspiera osobistą autonomię i godność, biorąc pod uwagę sprawiedliwość, niezawodność i bezpieczeństwo systemów sztucznej inteligencji, prywatność i bezpieczeństwo, inkluzję, przejrzystość i odpowiedzialność człowieka. Te zagadnienia odzwierciedlają nasze zaangażowanie w opracowywanie odpowiedzialnej sztucznej inteligencji.

Podczas przygotowania do wdrożenia produktów lub funkcji opartych na sztucznej inteligencji następujące działania pomagają w uzyskaniu sukcesu:

  • Dowiedz się, co może zrobić: w pełni ocenić możliwości zamiany mowy na tekst, aby zrozumieć jego możliwości i ograniczenia. Dowiedz się, jak będzie ona działać w konkretnym scenariuszu i kontekście, dokładnie testując je przy użyciu rzeczywistych warunków i danych.
  • Przestrzegaj prawa osoby fizycznej do prywatności: zbieraj tylko dane i informacje od osób fizycznych w celach legalnych i uzasadnionych. Używaj tylko danych i informacji, na których użycie masz zgodę w tym celu.
  • Przegląd prawny: Uzyskaj odpowiednią poradę prawną, aby przejrzeć rozwiązanie, szczególnie w przypadku korzystania z niego w aplikacjach poufnych lub o wysokim ryzyku. Dowiedz się, jakie ograniczenia mogą być potrzebne do pracy, oraz odpowiedzialności, aby rozwiązać wszelkie problemy, które mogą pojawić się w przyszłości. Nie należy udzielać żadnych porad prawnych ani wskazówek.
  • Human-in-the-loop: Zachowaj obecność człowieka w pętli i uwzględnij nadzór człowieka jako stały obszar do eksploracji. Oznacza to zapewnienie ciągłego nadzoru człowieka nad produktem lub funkcją wykorzystującą sztuczną inteligencję oraz utrzymanie roli ludzi w podejmowaniu decyzji. Upewnij się, że możesz mieć interwencję człowieka w czasie rzeczywistym w rozwiązaniu, aby zapobiec szkodom. Dzięki temu można zarządzać sytuacjami, gdy model AI nie działa zgodnie z wymaganiami.
  • Zabezpieczenia: Upewnij się, że rozwiązanie jest bezpieczne i ma odpowiednie mechanizmy kontroli w celu zachowania integralności zawartości i zapobiegania nieautoryzowanemu dostępowi.
  • Budowanie zaufania z udziałem uczestników projektu: poinformuj oczekiwane korzyści i potencjalne zagrożenia dla dotkniętych uczestników projektu. Pomóż ludziom zrozumieć, dlaczego potrzebne są dane i jak wykorzystanie danych doprowadzi do ich korzyści. Opis obsługi danych w zrozumiały sposób.
  • Pętla opinii klientów: podaj kanał opinii, który umożliwia użytkownikom i osobom zgłaszanie problemów z usługą po jej wdrożeniu. Po wdrożeniu produktu lub funkcji opartej na sztucznej inteligencji wymaga to ciągłego monitorowania i ulepszania. Przygotuj się do zaimplementowania wszelkich opinii i sugestii dotyczących ulepszeń. Ustanów kanały zbierania pytań i obaw osób biorących udział w projekcie (osób, które mogą być bezpośrednio lub pośrednio dotknięte przez system, w tym pracowników, odwiedzających i ogółu społeczeństwa).
  • Opinie: wyszukiwanie opinii na podstawie zróżnicowanego próbkowania społeczności podczas procesu opracowywania i oceny (na przykład od grup z marginesem historycznym, osób niepełnosprawnych i pracowników usług). Zobacz: Jury społeczności.
  • Badanie użytkowników: wszelkie zalecenia dotyczące wyrażania zgody lub ujawnienia powinny być oprawione w badaniu użytkowników. Oceń pierwsze i ciągłe doświadczenie w użyciu z reprezentatywną próbką społeczności, aby sprawdzić, czy wybory projektowe prowadzą do skutecznego ujawnienia. Przeprowadź badania użytkowników z 10–20 członkami społeczności (zainteresowanych stron), aby ocenić ich zrozumienie informacji i określić, czy ich oczekiwania są spełnione.

Zalecenia dotyczące zachowania prywatności

Skuteczne podejście do ochrony prywatności umożliwia osobom fizycznym korzystanie z informacji oraz zapewnia mechanizmy kontroli i ochrony w celu zachowania ich prywatności.

Zgoda na przetwarzanie i przechowywanie danych wejściowych audio: przed użyciem mowy do funkcji z obsługą tekstu w aplikacjach lub urządzeniach upewnij się, że masz wszystkie niezbędne uprawnienia od użytkowników końcowych. Upewnij się również, że masz uprawnienia dla Microsoftu do przetwarzania tych danych jako zewnętrznego dostawcę usług w chmurze. Należy pamiętać, że interfejs API w czasie rzeczywistym nie przechowuje oddzielnie żadnych danych wejściowych audio i danych wyjściowych transkrypcji. Można jednak zaprojektować aplikację lub urządzenie, aby zachować dane użytkownika końcowego, takie jak tekst transkrypcji. Istnieje możliwość włączenia rejestrowania danych lokalnych za pomocą Speech SDK (zobacz Włączanie rejestrowania w Speech SDK).

Następne kroki