Wdrażanie modelu wielomodalnego

3 min

Aby obsługiwać monity zawierające dźwięk, należy wdrożyć wielomodalny model sztucznej inteligencji — innymi słowy, model obsługujący nie tylko dane wejściowe oparte na tekście, ale także dane wejściowe oparte na dźwiękach. Modele wielomodalne dostępne w rozwiązaniu Microsoft Foundry obejmują (między innymi):

Microsoft Phi-4-instrukcja multimodalna
OpenAI gpt-4o
OpenAI gpt-4o-mini

Wskazówka

Aby dowiedzieć się więcej o dostępnych modelach w rozwiązaniu Microsoft Foundry, zobacz artykuł Katalog modeli i kolekcje w portalu Microsoft Foundry w dokumentacji rozwiązania Microsoft Foundry.

Testowanie modeli wielomodalnych przy użyciu monitów opartych na dźwiękach

Po wdrożeniu modelu wielomodalnego można go przetestować w środowisku testowym czatu w portalu Microsoft Foundry. Niektóre modele umożliwiają dołączanie załączników audio na placu zabaw przez przekazanie pliku lub zarejestrowanie wiadomości.

W środowisku czatu możesz przekazać lokalny plik audio i dodać tekst do wiadomości, aby wywołać odpowiedź z modelu wielomodalnego.

Sprzężenie zwrotne

Czy ta strona była pomocna?