Folosește un model capabil de viziune în portalul Microsoft Foundry

3 minute

Sfat

Consultați fila Text și imagini pentru mai multe detalii!

Pentru a gestiona solicitările care includ imagini, trebuie să implementați un model multimodal de inteligență artificială multimodală - cu alte cuvinte, un model care acceptă nu numai intrările bazate pe text, ci și intrarea bazată pe imagine (și, în unele cazuri, bazate pe audio). Modelele multimodale disponibile în Microsoft Foundry includ (printre altele):

Microsoft Phi-4-multimodal-instruct
OpenAI gpt-4.1
OpenAI gpt-4.1-mini

Sfat

Pentru a afla mai multe despre modelele disponibile în Microsoft Foundry, consultați articolul de prezentare generală Microsoft Foundry Models din documentația Microsoft Foundry.

Testarea modelelor multimodale cu solicitări bazate pe imagini

După implementarea unui model multimodal, îl poți testa în chatplayground-ul din portalul Microsoft Foundry.

Captură de ecran a locului de joacă pentru chat cu o solicitare bazată pe imagini.

În locul de joacă pentru chat, puteți să încărcați o imagine dintr-un fișier local și să adăugați text la mesaj pentru a provoca un răspuns de la un model multimodal.

Feedback

Această pagină a fost utilă?