Wdrażanie modelu wielomodalnego

Ukończone

Aby obsługiwać monity zawierające dźwięk, należy wdrożyć wielomodalny model sztucznej inteligencji — innymi słowy, model obsługujący nie tylko dane wejściowe oparte na tekście, ale także dane wejściowe oparte na dźwiękach. Modele wielomodalne dostępne w rozwiązaniu Microsoft Foundry obejmują (między innymi):

  • Microsoft Phi-4-instrukcja multimodalna
  • OpenAI gpt-4o
  • OpenAI gpt-4o-mini

Wskazówka

Aby dowiedzieć się więcej o dostępnych modelach w rozwiązaniu Microsoft Foundry, zobacz artykuł Katalog modeli i kolekcje w portalu Microsoft Foundry w dokumentacji rozwiązania Microsoft Foundry.

Testowanie modeli wielomodalnych przy użyciu monitów opartych na dźwiękach

Po wdrożeniu modelu wielomodalnego można go przetestować w środowisku testowym czatu w portalu Microsoft Foundry. Niektóre modele umożliwiają dołączanie załączników audio na placu zabaw przez przekazanie pliku lub zarejestrowanie wiadomości.

W środowisku czatu możesz przekazać lokalny plik audio i dodać tekst do wiadomości, aby wywołać odpowiedź z modelu wielomodalnego.