Co to jest model Whisper?

Model Szeptu to model mowy na tekst z interfejsu OpenAI, którego można użyć do transkrypcji plików audio. Model jest trenowany na dużym zestawie danych języka angielskiego audio i tekstu. Model jest zoptymalizowany pod kątem transkrypcji plików audio zawierających mowę w języku angielskim. Model może również służyć do transkrypcji plików audio zawierających mowę w innych językach. Dane wyjściowe modelu to tekst w języku angielskim.

Modele szeptu są dostępne za pośrednictwem usługi Azure OpenAI Service lub usługi Azure AI Speech. Funkcje różnią się w przypadku tych ofert. W usłudze Azure AI Speech szept jest tylko jednym z kilku modeli zamiany mowy na tekst, których można użyć.

Mogą pojawić się następujące pytania:

  • Czy model szeptu jest dobrym wyborem dla mojego scenariusza, czy też model usługi Azure AI Speech jest lepszy? Jakie są porównania interfejsów API między dwoma typami modeli?

  • Jeśli chcę użyć modelu szeptu, czy należy używać go za pośrednictwem usługi Azure OpenAI Lub za pośrednictwem usługi Azure AI Speech? Jakie scenariusze prowadzą mnie do korzystania z jednego lub drugiego?

Model szeptu lub modele mowy usługi Azure AI

Model szeptu lub modele mowy usługi Azure AI są odpowiednie w zależności od scenariuszy. Jeśli zdecydujesz się na korzystanie z usługi Azure AI Speech, możesz wybrać spośród kilku modeli, w tym modelu Whisper. W poniższej tabeli porównaliśmy opcje z zaleceniami dotyczącymi miejsca rozpoczęcia.

Scenariusz Model szeptu Modele mowy usługi Azure AI
Transkrypcje, podpis i napisy w czasie rzeczywistym dla audio i wideo. Niedostępny Zalecane
Transkrypcje, podpis i podtytuły dla wstępnie utworzonego dźwięku i wideo. Model Whisper za pośrednictwem usługi Azure OpenAI jest zalecany do szybkiego przetwarzania poszczególnych plików audio. Model Szeptu za pośrednictwem usługi Azure AI Speech jest zalecany do przetwarzania wsadowego dużych plików. Aby uzyskać więcej informacji, zobacz Szept model za pośrednictwem usługi Azure AI Speech lub za pośrednictwem usługi Azure OpenAI Service? Zalecane do przetwarzania wsadowego dużych plików, diaryzacji i sygnatur czasowych na poziomie wyrazów.
Transkrypcja nagrań i analiz połączeń telefonicznych, takich jak podsumowanie połączeń, tonacja, kluczowe tematy i niestandardowe szczegółowe informacje. Dostępny Zalecane
Transkrypcja i analiza w czasie rzeczywistym w celu ułatwienia agentom centrum obsługi telefonicznej pytań klientów. Niedostępny Zalecane
Transkrypcja nagrań i analiz spotkań, takich jak podsumowanie spotkania, rozdziały spotkania i wyodrębnianie elementów akcji. Dostępny Zalecane
Wprowadzanie tekstu w czasie rzeczywistym i generowanie dokumentów za pomocą dyktowania głosowego. Niedostępny Zalecane
Agent połączeń głosowych centrum kontaktów: routing połączeń i interakcyjne odpowiedzi głosowe dla centrów połączeń. Dostępny Zalecane
Asystent głosowy: Asystent głosowy specyficzny dla aplikacji dla zestawu, aplikacji mobilnej, w samochodzie i innych scenariuszy. Dostępny Zalecane
Ocena wymowy: ocena wymowy głosu osoby mówiącej. Niedostępny Zalecane
Tłumaczenie dźwięku na żywo z jednego języka na inny. Niedostępny Zalecane za pośrednictwem interfejsu API tłumaczenia mowy
Tłumaczenie wstępnie rozpoznanego dźwięku z innych języków na język angielski. Zalecane Dostępne za pośrednictwem interfejsu API tłumaczenia mowy
Tłumaczenie wstępnie rozpoznanego dźwięku na języki inne niż angielski. Niedostępny Zalecane za pośrednictwem interfejsu API tłumaczenia mowy

Model szeptu za pośrednictwem usługi Azure AI Speech lub za pośrednictwem usługi Azure OpenAI Service?

Jeśli zdecydujesz się użyć modelu Whisper, masz dwie opcje. Możesz wybrać, czy używać modelu szeptu za pośrednictwem usługi Azure OpenAI , czy za pośrednictwem usługi Azure AI Speech. W obu przypadkach czytelność transkrypcji tekstu jest taka sama. Możesz wprowadzić dźwięk w języku mieszanym, a dane wyjściowe są w języku angielskim.

Model szeptu za pośrednictwem usługi Azure OpenAI Service może być najlepszy dla:

  • Szybkie transkrypcja plików audio pojedynczo
  • Tłumaczenie dźwięku z innych języków na język angielski
  • Podaj monit dotyczący modelu, aby pokierować danymi wyjściowymi
  • Obsługiwane formaty plików: mp3, mp4, mpweg, mpga, m4a, wav i webm

Model szeptu za pośrednictwem usługi Azure AI Speech może być najlepszy w przypadku:

  • Transkrypcja plików większych niż 25 MB (do 1 GB). Limit rozmiaru pliku dla modelu Azure OpenAI Whisper wynosi 25 MB.
  • Transkrypcja dużych partii plików audio
  • Diarization w celu rozróżnienia między różnymi prelegentami uczestniczącymi w konwersacji. Usługa rozpoznawania mowy udostępnia informacje o tym, który mówca mówił określoną część transkrypcji mowy. Model Whisper za pośrednictwem usługi Azure OpenAI nie obsługuje diaryzacji.
  • Znaczniki czasu na poziomie programu Word
  • Obsługiwane formaty plików: mp3, wav i ogg
  • Dostosowywanie modelu podstawowego Szeptu w celu zwiększenia dokładności scenariusza (wkrótce)

Pomoc regionalna to kolejna kwestia.

  • Model Whisper za pośrednictwem usługi Azure OpenAI Service jest dostępny w następujących regionach: EastUS 2, India South, North Central, Norwegia Wschodnia, Szwecja Środkowa i Europa Zachodnia.
  • Model szeptu za pośrednictwem usługi Azure AI Speech jest dostępny w następujących regionach: Australia Wschodnia, Wschodnie stany USA, Północno-środkowe stany USA, Południowo-środkowe stany USA, Azja Południowo-Wschodnia, Południowe Zjednoczone Królestwo i Europa Zachodnia.

Następne kroki