Co to jest model Whisper?

2025-05-23

Whisper to model przekształcania mowy na tekst od OpenAI, którego można użyć do transkrypcji lub tłumaczenia plików audio. Model jest trenowany na dużym zestawie danych języka angielskiego audio i tekstu.

Model jest zoptymalizowany pod kątem transkrypcji plików audio zawierających mowę w języku angielskim.
Model może również służyć do tłumaczenia plików audio zawierających mowę w innych językach. Dane wyjściowe transkrypcji to tekst w języku angielskim.

Modele Whisper są dostępne w ramach Azure OpenAI w modelach Azure AI Foundry lub przez Azure AI Speech. Funkcje różnią się w przypadku tych ofert. W usłudze Azure AI Speech (transkrypcja wsadowa), Whisper to tylko jeden z kilku modeli, których można użyć do zamiany mowy na tekst.

Mogą pojawić się następujące pytania:

Czy model szeptu jest dobrym wyborem dla mojego scenariusza, czy też model usługi Azure AI Speech jest lepszy? Jakie są porównania interfejsów API między dwoma typami modeli?
Jeśli chcę użyć modelu szeptu, czy należy go używać za pośrednictwem usługi Azure OpenAI lub usługi Azure AI Speech? Jakie scenariusze prowadzą mnie do korzystania z jednego lub drugiego?

Model szeptu lub modele mowy usługi Azure AI

Model szeptu lub modele mowy usługi Azure AI są odpowiednie w zależności od scenariuszy. Jeśli zdecydujesz się na korzystanie z usługi Azure AI Speech, możesz wybrać spośród kilku modeli, w tym modelu Whisper. W poniższej tabeli porównaliśmy opcje z zaleceniami dotyczącymi miejsca rozpoczęcia.

Scenariusz	Model szeptu	Modele mowy usługi Azure AI
Transkrypcje, transkrypcje, transkrypcje i napisy w czasie rzeczywistym dla audio i wideo.	Niedostępny	Zalecane
Transkrypcje, transkrypcje i napisy dla wstępnie rozpoznanego dźwięku i wideo.	Model Whisper za pośrednictwem usługi Azure OpenAI jest zalecany do szybkiego przetwarzania poszczególnych plików audio. Model Szeptu za pośrednictwem usługi Azure AI Speech (transkrypcja wsadowa) jest zalecany do przetwarzania wsadowego dużych plików. Aby uzyskać więcej informacji, zobacz Model szeptu za pośrednictwem transkrypcji wsadowej usługi Azure AI Speech lub za pośrednictwem usługi Azure OpenAI?	Zalecane do przetwarzania wsadowego dużych plików, diaryzacji i sygnatur czasowych na poziomie wyrazów.
Transkrypcja nagrań i analiz połączeń telefonicznych, takich jak podsumowanie połączeń, tonacja, kluczowe tematy i niestandardowe szczegółowe informacje.	Dostępny	Zalecane
Transkrypcja i analiza w czasie rzeczywistym w celu ułatwienia agentom centrum obsługi telefonicznej pytań klientów.	Niedostępny	Zalecane
Transkrypcja nagrań i analiz spotkań, takich jak podsumowanie spotkania, rozdziały spotkania i wyodrębnianie elementów akcji.	Dostępny	Zalecane
Wprowadzanie tekstu w czasie rzeczywistym i generowanie dokumentów za pomocą dyktowania głosowego.	Niedostępny	Zalecane
Agent połączeń głosowych centrum kontaktów: routing połączeń i interakcyjne odpowiedzi głosowe dla centrów połączeń.	Dostępny	Zalecane
Asystent głosowy: Asystent głosowy specyficzny dla aplikacji dla zestawu, aplikacji mobilnej, w samochodzie i innych scenariuszy.	Dostępny	Zalecane
Ocena wymowy: ocena wymowy głosu osoby mówiącej.	Niedostępny	Zalecane
Tłumaczenie dźwięku na żywo z jednego języka na inny.	Niedostępny	Zalecane za pośrednictwem interfejsu API tłumaczenia mowy.
Tłumaczenie wstępnie rozpoznanego dźwięku z innych języków na język angielski.	Zalecane	Również dostępne za pośrednictwem API przetwarzania mowy.
Tłumaczenie wstępnie rozpoznanego dźwięku na języki inne niż angielski.	Niedostępny	Zalecane za pośrednictwem interfejsu API tłumaczenia mowy.

Model szeptu za pośrednictwem usługi Azure AI Speech lub za pośrednictwem usługi Azure OpenAI?

Jeśli zdecydujesz się użyć modelu Whisper, masz dwie opcje. Możesz wybrać, czy używać modelu szeptu za pośrednictwem usługi Azure OpenAI, czy za pośrednictwem usługi Azure AI Speech (transkrypcja wsadowa). W obu przypadkach czytelność transkrypcji tekstu jest taka sama.

Model szeptu za pośrednictwem usługi Azure OpenAI może być najlepszy dla:

Szybka transkrypcja plików audio jeden po drugim.
Tłumaczenie dźwięku z innych języków na angielski. Możesz wprowadzić dźwięk w języku mieszanym, a dane wyjściowe są w języku angielskim.
Podaj monit do modelu, aby kierować danymi wyjściowymi.
Obsługiwane formaty plików: mp3, mp4, mpweg, mpga, m4a, wav i webm.
Tylko znak ASCII obsługiwany dla nazwy pliku.

Model szeptu za pośrednictwem transkrypcji wsadowej usługi Azure AI Speech może być najlepszy dla:

Transkrypcja plików większych niż 25 MB (do 1 GB). Limit rozmiaru pliku dla modelu Azure OpenAI Whisper wynosi 25 MB.
Transkrypcja dużych partii plików audio.
Diarization w celu rozróżnienia między różnymi prelegentami uczestniczącymi w konwersacji. Usługa rozpoznawania mowy udostępnia informacje o tym, który mówca mówił określoną część transkrypcji mowy. Model Whisper za pośrednictwem usługi Azure OpenAI nie obsługuje diaryzacji.
Znaczniki czasu na poziomie programu Word
Obsługiwane formaty plików: mp3, wav i ogg.

Pomoc regionalna to kolejna kwestia.

Model Whisper za pośrednictwem usługi Azure OpenAI jest dostępny w następujących regionach: Wschodnie stany USA 2, Indie Południowe, Północno-środkowe, Norwegia Wschodnia, Szwecja Środkowa, Szwajcaria Północna i Europa Zachodnia.
Model szeptu za pośrednictwem usługi Azure AI Speech jest dostępny w następujących regionach: Australia Wschodnia, Wschodnie stany USA, Północno-środkowe stany USA, Południowo-środkowe stany USA, Azja Południowo-Wschodnia i Europa Zachodnia.

Udostępnij za pośrednictwem

Co to jest model Whisper?

Model szeptu lub modele mowy usługi Azure AI

Model szeptu za pośrednictwem usługi Azure AI Speech lub za pośrednictwem usługi Azure OpenAI?

Powiązana zawartość

Opinia

Dodatkowe zasoby