Folosește un model capabil de viziune în portalul Microsoft Foundry
Sfat
Consultați fila Text și imagini pentru mai multe detalii!
Pentru a gestiona solicitările care includ imagini, trebuie să implementați un model multimodal de inteligență artificială multimodală - cu alte cuvinte, un model care acceptă nu numai intrările bazate pe text, ci și intrarea bazată pe imagine (și, în unele cazuri, bazate pe audio). Modelele multimodale disponibile în Microsoft Foundry includ (printre altele):
- Microsoft Phi-4-multimodal-instruct
- OpenAI gpt-4.1
- OpenAI gpt-4.1-mini
Sfat
Pentru a afla mai multe despre modelele disponibile în Microsoft Foundry, consultați articolul de prezentare generală Microsoft Foundry Models din documentația Microsoft Foundry.
Testarea modelelor multimodale cu solicitări bazate pe imagini
După implementarea unui model multimodal, îl poți testa în chatplayground-ul din portalul Microsoft Foundry.
În locul de joacă pentru chat, puteți să încărcați o imagine dintr-un fișier local și să adăugați text la mesaj pentru a provoca un răspuns de la un model multimodal.