IA générative avec Azure Database pour PostgreSQL

L’IA générative fait référence à une classe d’algorithmes IA qui peuvent apprendre à partir de contenu multimédia existant et produire du nouveau contenu. Le contenu produit peut être personnalisé par le biais de techniques telles que les instructions et le réglage précis. Les algorithmes d’IA générative appliquent des modèles Machine Learning spécifiques :

Transformateurs et réseaux neuronaux récurrents (RNN) pour la génération de texte
Réseaux adversaires génératifs (GAN) et autoencodeurs (VAE) variationnels pour la génération d’images

L’IA générative est utilisée dans la synthèse de l’image et de la musique et dans les soins de santé, ainsi que dans les tâches courantes telles que l’autocomplétion de texte, la synthèse de texte et la traduction. Les techniques d’IA générative permettent des fonctionnalités sur les données telles que le clustering et la segmentation, la recherche sémantique et les recommandations, la modélisation des rubriques, la réponse aux questions et la détection d’anomalies.

La vidéo suivante illustre l’utilisation de l’IA générative avec Azure Database pour PostgreSQL et l’extensionpgvector, qui peut vous aider à comprendre les concepts de cet article.

OpenAI

OpenAI est une société de recherche et de technologie connue pour son travail pionnier dans le domaine de l’IA et du Machine Learning. Sa mission est de s’assurer que l’intelligence générale artificielle (AGI), qui fait référence à des systèmes d’INTELLIGENCE artificielle hautement autonomes qui peuvent surpasser les humains dans le travail le plus utile sur le plan économique, profite à toute l’humanité. OpenAI a mis sur le marché des modèles dégénératifs de pointe tels que GPT-3, GPT-3.5 et GPT-4.

Azure OpenAI est une offre de service Microsoft qui permet de créer des applications IA génératives à l’aide d’Azure. Azure OpenAI offre aux clients une intelligence artificielle linguistique avancée avec les modèles OpenAI GPT-4, GPT-3, Codex, DALL-E et Whisper, avec les fonctionnalités de sécurité et d’entreprise d’Azure. Azure OpenAI co-développe les API avec OpenAI pour garantir la compatibilité et une transition fluide de l’un à l’autre.

Avec Azure OpenAI, les clients bénéficient des fonctionnalités de sécurité de Microsoft Azure tout en exécutant les mêmes modèles qu’OpenAI. Azure OpenAI offre une mise en réseau privé, une disponibilité régionale et un filtrage de contenu d’IA responsable.

En savoir plus sur Azure OpenAI.

Modèle de langage à grande échelle

Un modèle de langage volumineux (LLM) est un type de modèle IA formé sur de grandes quantités de données texte pour comprendre et générer un langage humain. Les modules LLM sont généralement basés sur des architectures d’apprentissage profond, telles que des transformateurs. Ils sont connus pour leur capacité à effectuer un large éventail de tâches de compréhension du langage naturel et de génération. Le service Azure OpenAI et le ChatGPT d’OpenAI sont des exemples d’offres LLM.

Voici quelques-unes des principales caractéristiques et fonctionnalités des modules LLM :

Échelle : l'échelle des LLMs est immense, en termes de nombre de paramètres que leurs architectures utilisent. Les modèles tels que GPT-3 contiennent des centaines de millions à des billions de paramètres, ce qui leur permet de capturer des modèles complexes dans le langage.
Préentraînement : les llms subissent une préentraînation sur un grand corpus de données texte provenant d’Internet. Cette préentraînation leur permet d’apprendre la grammaire, la syntaxe, la sémantique et un large éventail de connaissances sur le langage et le monde.
Réglage précis : après le préentraînement, les LLM peuvent être ajustés sur des tâches ou des domaines spécifiques avec des jeux de données plus petits et spécifiques aux tâches. Ce processus de réglage précis leur permet de s’adapter à des tâches plus spécialisées, telles que la classification de texte, la traduction, la synthèse et la réponse aux questions.

GPT

GPT est un transformateur préentraîné génératif, qui fait référence à une série de modèles de langage volumineux développés par OpenAI. Les modèles GPT sont des réseaux neuronaux préentraînés sur de grandes quantités de données provenant d’Internet, de sorte qu’ils sont capables de comprendre et de générer du texte humain.

Voici une vue d’ensemble des principaux modèles GPT et de leurs principales caractéristiques :

GPT-3 : publié en juin 2020 et un modèle bien connu dans la série GPT. Il a 175 milliards de paramètres, ce qui en fait l’un des modèles de langage les plus importants et les plus puissants en existence.

GPT-3 a obtenu des performances remarquables sur un large éventail de tâches de compréhension et de génération du langage naturel. Il peut effectuer des tâches telles que la saisie semi-automatique de texte, la traduction et la réponse aux questions avec une fluidité au niveau humain.

GPT-3 est divisé en différentes tailles de modèle, allant du plus petit (125 millions de paramètres) au plus grand (175 milliards de paramètres).
GPT-4 : Le dernier modèle GPT d’OpenAI. Il a 1,76 billion de paramètres.

Vecteurs

Un vecteur est un concept mathématique utilisé dans l’algèbre linéaire et la géométrie pour représenter des quantités qui ont à la fois l’ampleur et la direction. Dans le contexte du Machine Learning, les vecteurs sont souvent utilisés pour représenter des points de données ou des fonctionnalités.

Les attributs clés et les opérations des vecteurs sont les suivants :

Magnitude : la longueur ou la taille d’un vecteur, souvent désignée comme sa norme, représente l’ampleur des données. C’est un nombre réel non négatif.
Direction : la direction indique l’orientation ou l’angle de la quantité qu’elle représente, par rapport à un point de référence ou à un système de coordonnées.
Composants : un vecteur peut être décomposé en ses composants le long de différents axes ou dimensions. Dans un système de coordonnées cartesiens 2D, un vecteur peut être représenté sous la forme (x, y), où x et y sont ses composants le long de l’axe x et de l’axe y, respectivement. Un vecteur en n dimensions est un n-tuple ({x1, x2… xn}).
Multiplication des additions et scalaires : les vecteurs peuvent être ajoutés ensemble pour former de nouveaux vecteurs, et ils peuvent être multipliés par des scalaires (nombres réels).
Produits scalaires et produits croisés : les vecteurs peuvent être combinés via des produits scalaires (produits scalaires) et des produits croisés (produits vectoriels).

Bases de données vectorielles

Une base de données vectorielle, également appelée système de gestion de base de données vectorielle (SGBD), est un type de système de base de données conçu pour stocker, gérer et interroger efficacement les données vectorielles. Les bases de données relationnelles traditionnelles gèrent principalement les données structurées dans les tables, tandis que les bases de données vectorielles sont optimisées pour le stockage et la récupération de points de données multidimensionnels représentés sous forme de vecteurs. Ces bases de données sont utiles pour les applications où des opérations telles que des recherches de similarité, des données géospatiales, des systèmes de recommandation et un clustering sont impliquées.

Les principales caractéristiques des bases de données vectorielles sont les suivantes :

Stockage vectoriel : les bases de données vectorielles stockent des points de données sous forme de vecteurs avec plusieurs dimensions. Chaque dimension représente une fonctionnalité ou un attribut du point de données. Ces vecteurs peuvent représenter un large éventail de types de données, notamment des données numériques, catégorielles et textuelles.
Opérations vectorielles efficaces : les bases de données vectorielles sont optimisées pour effectuer des opérations vectorielles, telles que l’ajout de vecteurs, la soustraction, les produits de points et les calculs de similarité (par exemple, la similarité cosinus ou la distance euclide).
Recherche efficace : des mécanismes d’indexation efficaces sont essentiels pour la récupération rapide de vecteurs similaires. Les bases de données vectorielles utilisent différents mécanismes d’indexation pour permettre une récupération rapide.
Langages de requête : les bases de données vectorielles fournissent des langages de requête et des API adaptés aux opérations vectorielles et aux recherches de similarité. Ces langages de requête permettent aux utilisateurs d’exprimer efficacement leurs critères de recherche.
Recherche de similarité : les bases de données vectorielles excelent dans les recherches de similarité, ce qui permet aux utilisateurs de rechercher des points de données similaires à un point de requête fourni. Cette caractéristique est précieuse dans les systèmes de recherche et de recommandation.
Gestion des données géospatiales : certaines bases de données vectorielles sont conçues pour les données géospatiales, de sorte qu’elles conviennent parfaitement aux applications telles que les services basés sur l’emplacement, les systèmes d’information géographique (GIS) et les tâches liées à la carte.
Prise en charge de différents types de données : les bases de données vector peuvent stocker et gérer différents types de données, tels que des vecteurs, des images et du texte.

PostgreSQL peut bénéficier des fonctionnalités d’une base de données vectorielle à l’aide de l’extension pgvector.

Incorporations

Les incorporations sont un concept dans le machine learning et le traitement en langage naturel qui implique la représentation d’objets (tels que des mots, des documents ou des entités) en tant que vecteurs dans un espace multidimensionnel.

Ces vecteurs sont souvent denses. C’est-à-dire qu’ils ont un grand nombre de dimensions. Ils sont appris par le biais de différentes techniques, y compris les réseaux neuronaux. Les incorporations visent à capturer des relations sémantiques et des similitudes entre les objets dans un espace vectoriel continu.

Les types courants d’incorporations sont les suivants :

Word : dans le traitement du langage naturel, les incorporations de mots représentent des mots sous forme de vecteurs. Chaque mot est mappé à un vecteur dans un espace à haute dimension, où les mots ayant des significations ou des contextes similaires se trouvent plus près les uns des autres. Word2Vec et GloVe sont des techniques d’incorporation de mots populaires.
Document : Les incorporations de documents représentent des documents sous forme de vecteurs. Doc2Vec est populaire pour la création d’incorporations de documents.
Image : les images peuvent être représentées sous forme d’incorporations pour capturer des fonctionnalités visuelles pour des tâches telles que la reconnaissance d’objets.

Les incorporations sont essentielles pour représenter des données complexes et à haute dimension dans une forme que les modèles Machine Learning peuvent facilement traiter. Ils peuvent être formés sur des jeux de données volumineux, puis utilisés comme fonctionnalités pour différentes tâches. Les llms les utilisent.

PostgreSQL peut bénéficier des fonctionnalités de génération d’incorporations de vecteurs avec l’intégration OpenAI de l’extension Azure AI.

Scénarios

L’IA générative a un large éventail d’applications dans différents domaines et secteurs, notamment la technologie, les soins de santé, le divertissement, la finance, la fabrication, etc. Voici quelques tâches courantes que les personnes peuvent accomplir à l’aide de l’IA générative :

Recherche sémantique :
- L’IA générative active la recherche sémantique sur les données plutôt que sur la recherche lexicographique. Ce dernier recherche des correspondances exactes aux requêtes, tandis que la recherche sémantique recherche du contenu qui satisfait à l’intention de la requête de recherche.
Chatbots et assistants virtuels :
- Développez des chatbots qui peuvent participer à des conversations naturelles prenant en charge le contexte ; par exemple, pour implémenter l’auto-assistance pour les clients.
Systèmes de recommandation :
- Améliorez les algorithmes de recommandation en générant des incorporations ou des représentations d’éléments ou d’utilisateurs.
Clustering et segmentation :
- Les embeddings générés par l'IA générative permettent aux algorithmes de clustering de regrouper des données afin que des données similaires soient ensemble. Ce clustering permet des scénarios tels que la segmentation des clients, ce qui permet aux annonceurs de cibler leurs clients différemment en fonction de leurs attributs.
Génération de contenu :
- Générez du texte humain pour les applications telles que les chatbots, la création de romans/poésies et la compréhension du langage naturel.
- Créez des images réalistes, des illustrations ou des conceptions pour les graphismes, le divertissement et la publicité.
- Générez des vidéos, des animations ou des effets vidéo pour les films, les jeux et le marketing.
- Générez de la musique.
Traduction :
- Traduisez du texte d’une langue vers une autre.
Résumé :
- Résumez des articles ou documents longs pour extraire des informations clés.
Augmentation des données :
- Générez des exemples de données supplémentaires pour développer et améliorer les jeux de données d’apprentissage pour les modèles Machine Learning.
- Créez des données synthétiques pour des scénarios difficiles ou coûteux à collecter dans le monde réel, comme l’imagerie médicale.
Découverte de drogues :
- Générez des structures moléculaires et prédisez les candidats potentiels de médicaments pour la recherche pharmaceutique.
Développement de jeux :
- Créez du contenu de jeu, y compris les niveaux, les caractères et les textures.
- Générez des environnements et des paysages réalistes dans le jeu.
Dénoisage et complétion des données :
- Nettoyez les données bruyantes en générant des exemples de données propres.
- Renseignez les données manquantes ou incomplètes dans les jeux de données.

Rétroaction

Cette page vous a-t-elle été utile ?

Last updated on 2025-07-21