Riassunto
Annotazioni
Per altri dettagli, vedi la scheda Testo e immagini .
In questo modulo sono stati esaminati i modelli che supportano la visione in Microsoft Foundry e come usarli per analizzare le immagini e generare immagini e video originali.
Il modulo ha coperto i modelli multimodali, che supportano l'analisi delle immagini. Sono stati illustrati anche i modelli di generazione di immagini, ad esempio quelli della famiglia di GPT-Image, per la creazione e la modifica di immagini da richieste tramite strumenti e API Foundry. Infine, è stata introdotta la generazione di video con i modelli Sora, che consentono la creazione da testo a video e da immagine a video tramite playground interattivi e flussi di lavoro REST asincroni a livello di codice.
Nel complesso, i modelli di intelligenza artificiale visiva in Microsoft Foundry consentono di colmare il divario tra i dati visivi e l'intelligenza artificiale basata sul linguaggio. Consentono scenari come l'analisi dei documenti e delle immagini, gli assistenti visivi, gli strumenti di accessibilità e gli agenti di intelligenza artificiale, facilitando la comprensione delle immagini come naturale estensione delle applicazioni di intelligenza artificiale moderne.
Per altre informazioni, vedere i collegamenti seguenti:
- Prova una guida introduttiva all'analisi delle immagini presente nella documentazione.
- Altre informazioni sui modelli di chat abilitati per la visione.
- Altre informazioni sui modelli di generazione di immagini OpenAI di Azure.
- Altre informazioni sulla generazione di video con Sora.