Wybieranie technologii rozpoznawania i generowania mowy sztucznej inteligencji platformy Azure
Usługi sztucznej inteligencji platformy Azure ułatwiają projektantom obciążeń i deweloperom tworzenie inteligentnych, nowoczesnych, gotowych na rynek i odpowiedzialnych aplikacji za pomocą gotowych do użycia i wstępnie utworzonych i dostosowywalnych interfejsów API i modeli.
W tym artykule opisano usługi Azure AI, które oferują funkcje rozpoznawania mowy i generowania mowy, takie jak konwersje mowy na tekst i zamiana tekstu na mowę, tłumaczenie audio, rozpoznawanie osoby mówiącej, a także obsługa czytania osób z różnicami w uczeniu się.
Uwaga
Aby zebrać szczegółowe informacje na temat terminów lub fraz lub uzyskać szczegółową analizę kontekstową mówionego lub napisanego języka, zobacz Wybieranie technologii przetwarzania języka docelowego sztucznej inteligencji platformy Azure.
Usługi
Następujące usługi azure AI umożliwiają rozpoznawanie mowy i generowanie dla obciążenia.
Usługa Azure AI Speech zapewnia przetwarzanie języka naturalnego na potrzeby analizy tekstu.
- Użyj usługi rozpoznawania mowy, gdy musisz transkrybować lub tłumaczyć mowę mówiną, identyfikować osoby mówiące w konwersacji. Możesz również użyć usługi jako tańszej alternatywy dla naturalnego generowania mowy dźwiękowej do wyższej jakości Whisper w modelach OpenAI.
- Nie używaj usługi rozpoznawania mowy na potrzeby czatu, podsumowania zawartości, moderowania ani prowadzenia użytkowników za pomocą skryptów. Zamiast tego należy używać innych modeli.
Czytnik immersyjny to narzędzie, które implementuje sprawdzone techniki w celu poprawy zrozumienia czytania dla nowych czytelników, uczniów języka i osób z różnicami w uczeniu się.
- Użyj Czytnik immersyjny, aby zapewnić ulepszone środowisko czytelności dostosowane do osób uczących się języka lub osób z różnicami w nauce.
- Nie używaj Czytnik immersyjny w przypadku tradycyjnych przypadków użycia tekstu na mowę.
Mowa platformy Azure AI
Usługa Azure AI Speech zapewnia zamianę mowy na tekst i tekst na mowę za pomocą zasobu usługi Mowa. Możesz transkrybować mowę do tekstu z wysoką dokładnością, tworzyć naturalnie brzmiący tekst na głosy mowy, tłumaczyć dźwięk mówiony i używać rozpoznawania osoby mówiącej podczas konwersacji. Twórz niestandardowe głosy, dodawaj określone słowa do podstawowego słownika lub twórz własne modele. Uruchamiaj usługę Mowa w dowolnym miejscu, w chmurze lub na urządzeniach brzegowych w kontenerach.
Mowa jest dostępna dla wielu języków i regionów.
Możliwości
Poniższa tabela zawiera listę funkcji dostępnych w usłudze Azure AI Speech.
Możliwość | opis |
---|---|
Transkrypcja wsadowa | Transkrybuj dużą ilość danych audio w magazynie. Zarówno interfejs API REST zamiany mowy na tekst, jak i interfejs wiersza polecenia mowy obsługują transkrypcję wsadową. |
Rozpoznawanie intencji | Intencja to coś, co użytkownik chce zrobić: zarezerwować lot, sprawdzić prognozę pogody lub zadzwonić. Dzięki rozpoznawaniu intencji aplikacje, narzędzia i urządzenia mogą określić, co użytkownik chce zainicjować lub wykonać na podstawie opcji. Intencję użytkownika definiuje się w modelu rozpoznawania intencji lub konwersacyjnego rozumienia języka (CLU). |
Ocena wymowy | Ocenia wymowę mowy i przekazuje prelegentom opinie na temat dokładności i biegłości dźwięku mówionego. |
Rozpoznawanie osoby mówiącej | Rozpoznawanie osoby mówiącej może pomóc w ustaleniu, kto mówi w klipie audio. Usługa może weryfikować i identyfikować osoby mówiące o ich unikatowych cechach głosowych przy użyciu biometrii głosowej. |
Zamiana mowy na tekst | Konwertuje strumienie audio na tekst w czasie rzeczywistym lub w partii. |
Zamiana tekstu na mowę | Umożliwia aplikacjom, narzędziom lub urządzeniom konwertowanie tekstu na syntetyzowany mowę przypominającą człowieka. |
Tłumaczenie mowy | Zapewnia wielojęzyczne tłumaczenie mowy na mowę i zamianę mowy na tekst strumieni audio. |
Tłumaczenie wideo | Automatycznie tłumacz i generuj filmy wideo w wielu językach. |
Przypadki użycia
W poniższej tabeli opisano niektóre sposoby korzystania z usługi Azure AI Speech.
Przypadek użycia | Możliwość użycia | opis |
---|---|---|
Tworzenie zawartości audio | Zamiana mowy na tekst | Możesz użyć neuronowych głosów, aby interakcje z czatbotami i asystentami głosowymi bardziej naturalne i angażujące, przekształcać teksty cyfrowe, takie jak książki elektroniczne na audiobooki i ulepszać systemy nawigacji samochodowej. |
Transkrypcja w centrum obsługi telefonicznej | Zamiana mowy na tekst | Transkrypcja wywołań w czasie rzeczywistym lub przetwarzanie partii wywołań, redact personally identyfikujące informacje i wyodrębnianie szczegółowych informacji, takich jak tonacja, aby pomóc w przypadku użycia centrum telefonicznego. |
Podpisów | Zamiana mowy na tekst | Synchronizuj podpisy z dźwiękiem wejściowym, zastosuj filtry wulgaryzmów, uzyskaj częściowe wyniki, zastosuj dostosowania i zidentyfikuj języki mówione w scenariuszach wielojęzycznych. |
Nauka języka | Zamiana mowy na tekst | Przekaż opinię na temat oceny wymowy uczniom języka, wspierać transkrypcję w czasie rzeczywistym na potrzeby rozmów zdalnego uczenia się i odczytywać na głos materiały dydaktyczne z głosami neuronowymi. |
Asystenci głosowi | Zamiana tekstu na mowę | Twórz naturalne, ludzkie interfejsy, takie jak interfejsy konwersacyjne dla swoich aplikacji i środowisk. Funkcja asystenta głosowego zapewnia szybką i niezawodną interakcję między urządzeniem a implementacją asystenta. |
Czytnik immersyjny
Czytnik immersyjny, część usług azure AI, jest inkluzywnie zaprojektowanym narzędziem, które implementuje sprawdzone techniki ulepszania zrozumienia czytania dla nowych czytelników, uczniów języka i osób z różnicami w uczeniu się, takimi jak dysleksja. Dzięki bibliotece klienta Czytnik immersyjny możesz użyć tej samej technologii używanej w programach Microsoft Word i Microsoft OneNote, aby zapewnić użytkownikom obciążenia doskonałe środowisko.
Możliwości
Poniżej znajduje się lista możliwości, których obciążenie może użyć, aby ułatwić użytkownikom osiąganie celów zrozumienia.
- Izolowanie zawartości w celu zwiększenia czytelności
- Wyświetlanie obrazów dla typowych słów i terminów
- Pomoc w zrozumieniu części mowy i gramatyki przez wyróżnianie czasowników, unów, zaimków i nie tylko
- Odczytywanie zawartości na głos, takiej jak tekst wybrany przez użytkownika w interfejsie użytkownika obciążenia
- Tłumaczenie zawartości na wiele języków w czasie rzeczywistym, co pomaga poprawić zrozumienie dla czytelników uczących się nowego języka
- Podziel wyrazy na sylaby, aby poprawić czytelność lub brzmiące nowe słowa
Następne kroki
- Co to jest usługa rozpoznawania mowy?
- Ścieżka szkoleniowa: Opracowywanie rozwiązań przetwarzania języka naturalnego za pomocą usług Azure AI