Brug en visionskompatibel model i Microsoft Foundry-portalen

3 minutter

Hvis du vil håndtere prompter, der indeholder billeder, skal du udrulle en multimodal generativ AI-model – med andre ord en model, der ikke kun understøtter tekstbaseret input, men også billedbaseret (og i nogle tilfælde lydbaseret) input. Multimodale modeller, der er tilgængelige i Microsoft Foundry, inkluderer (blandt andre):

Microsoft Phi-4-multimodal-instruct
OpenAI gpt-4.1
OpenAI gpt-4.1-mini

Tips

For at lære mere om tilgængelige modeller i Microsoft Foundry, se oversigtsartiklen Microsoft Foundry Models i Microsoft Foundry-dokumentationen.

Test af multimodale modeller med billedbaserede prompts

Efter at have implementeret en multimodal model, kan du teste den i chat-legepladsen i Microsoft Foundry-portalen.

Skærmbillede af chat-legepladsen med en billedbaseret prompt.

På chat-legepladsen kan du uploade et billede fra en lokal fil og føje tekst til meddelelsen for at fremkalde et svar fra en multimodal model.

Feedback

Var denne side nyttig?