Podsumowanie

Ukończone

W tym module przedstawiono informacje na temat modeli generacyjnych sztucznej inteligencji z obsługą dźwięku oraz sposobu implementowania rozwiązań do czatów zawierających dane wejściowe oparte na dźwiękach.

Modele obsługujące dźwięk umożliwiają tworzenie rozwiązań sztucznej inteligencji, które mogą interpretować dźwięk i odpowiadać na powiązane pytania lub instrukcje. Oprócz identyfikowania wypowiadanych słów niektóre modele mogą również używać rozumowania w oparciu o to, co słyszy. Mogą na przykład podsumować komunikat lub ocenić tonację osoby mówiącej.

Wskazówka

Aby uzyskać więcej informacji na temat pracy z modelami wielomodalnymi w Microsoft Foundry, zobacz Jak używać obrazu i dźwięku podczas kończenia czatów za pomocą modelu Azure AI oraz Szybki start: jak używać mowy i dźwięku w czatach AI.