Brug en visionskompatibel model i Microsoft Foundry-portalen
Hvis du vil håndtere prompter, der indeholder billeder, skal du udrulle en multimodal generativ AI-model – med andre ord en model, der ikke kun understøtter tekstbaseret input, men også billedbaseret (og i nogle tilfælde lydbaseret) input. Multimodale modeller, der er tilgængelige i Microsoft Foundry, inkluderer (blandt andre):
- Microsoft Phi-4-multimodal-instruct
- OpenAI gpt-4.1
- OpenAI gpt-4.1-mini
Tips
For at lære mere om tilgængelige modeller i Microsoft Foundry, se oversigtsartiklen Microsoft Foundry Models i Microsoft Foundry-dokumentationen.
Test af multimodale modeller med billedbaserede prompts
Efter at have implementeret en multimodal model, kan du teste den i chat-legepladsen i Microsoft Foundry-portalen.
På chat-legepladsen kan du uploade et billede fra en lokal fil og føje tekst til meddelelsen for at fremkalde et svar fra en multimodal model.