Tutoriel : Créer une recherche sémantique avec Azure Database pour PostgreSQL et Azure OpenAI

Ce tutoriel pratique vous montre comment créer une application de recherche sémantique à l’aide d’Azure Database pour PostgreSQL et d’Azure OpenAI.

La recherche sémantique effectue des recherches basées sur la sémantique. La recherche lexicale standard effectue des recherches basées sur des mots clés fournis dans une requête. Par exemple, votre jeu de données de recettes peut ne pas contenir d’étiquettes comme sans gluten, végétarien, sans lait, sans fruits ou dessert, mais ces caractéristiques peuvent être déduites des ingrédients. L’idée est d’émettre de telles requêtes sémantiques et d’obtenir des résultats de recherche pertinents.

Dans ce tutoriel, vous allez :

Identifiez les scénarios de recherche et les champs de données qui seront impliqués dans une recherche.
Pour chaque champ de données impliqué dans une recherche, créez un champ vectoriel correspondant pour stocker les incorporations de la valeur stockée dans le champ de données.
Générez des incorporations pour les données dans les champs de données sélectionnés, puis stockez les incorporations dans leurs champs vectoriels correspondants.
Générez l'embedding pour n'importe quelle requête de recherche.
Recherchez le champ de données vectorielles et listez les plus proches voisins.
Exécutez les résultats par le biais des modèles de pertinence, de classement et de personnalisation appropriés pour produire le classement final. En l’absence de ces modèles, classez les résultats dans l’ordre décroissant du produit scalaire.
Surveillez le modèle, la qualité des résultats et les métriques métier, telles que le taux de clic et le temps de vie. Intégrez des mécanismes de retour d’information pour déboguer et améliorer la pile de recherche, de la qualité des données, leur actualité et leur personnalisation à l’expérience utilisateur.

Prérequis

Créez un compte OpenAI et demandez l’accès à Azure OpenAI.
Permettez d’accéder à Azure OpenAI dans l’abonnement souhaité.
Octroyez des autorisations pour créer des ressources Azure OpenAI et déployer des modèles.
Créez et déployez une ressource Azure OpenAI et un modèle. Déployez le modèle d’intégration text-embedding-ada-002. Copiez le nom du déploiement, dont vous aurez besoin pour créer des embeddings.

Activer les extensions azure_ai et pgvector

Avant de pouvoir activer azure_ai et pgvector sur votre instance de serveur flexible Azure Database pour PostgreSQL, vous devez les ajouter à votre liste d'autorisation. Assurez-vous qu’ils sont correctement ajoutés en exécutant SHOW azure.extensions;.

Vous pouvez ensuite installer l’extension en vous connectant à votre base de données cible et en exécutant la commande CREATE EXTENSION . Vous devez répéter la commande séparément pour chaque base de données dans laquelle vous souhaitez que l’extension soit disponible.

CREATE EXTENSION azure_ai;
CREATE EXTENSION vector;

Configurer un point de terminaison et une clé OpenAI

Dans les services Azure AI, sous gestion des ressources>Clés et points de terminaison, vous pouvez trouver le point de terminaison et les clés de votre ressource Azure AI. Utilisez le point de terminaison et l’une des clés pour permettre à l’extension azure_ai d’appeler le déploiement du modèle :

select azure_ai.set_setting('azure_openai.endpoint','https://<endpoint>.openai.azure.com');
select azure_ai.set_setting('azure_openai.subscription_key', '<API Key>');

Télécharger les données

Téléchargez les données à partir de Kaggle.

Créer la table

Connectez-vous à votre serveur et créez une test base de données. Dans cette base de données, utilisez la commande suivante pour créer une table dans laquelle vous allez importer des données :

CREATE TABLE public.recipes(
    rid integer NOT NULL,
    recipe_name text,
    prep_time text,
    cook_time text,
    total_time text,
    servings integer,
    yield text,
    ingredients text,
    directions text,
    rating real,
    url text,
    cuisine_path text,
    nutrition text,
    timing text,
    img_src text,
    PRIMARY KEY (rid)
);

Importer les données

Définissez la variable d’environnement suivante dans la fenêtre cliente pour définir l’encodage sur UTF-8. Cette étape est nécessaire, car ce jeu de données particulier utilise l’encodage Windows-1252.

Rem on Windows
Set PGCLIENTENCODING=utf-8;

# on Unix based operating systems
export PGCLIENTENCODING=utf-8

Importez les données dans la table que vous avez créée. Notez que ce jeu de données contient une ligne d’en-tête.

psql -d <database> -h <host> -U <user> -c "\copy recipes FROM <local recipe data file> DELIMITER ',' CSV HEADER"

Ajouter une colonne pour stocker les incorporations

Ajoutez une colonne d'intégration au tableau :

ALTER TABLE recipes ADD COLUMN embedding vector(1536);

Générer des incorporations

Générez des incorporations pour vos données à l’aide de l’extension azure_ai . L’exemple suivant vectorise quelques champs et est concaténé.

WITH ro AS (
    SELECT ro.rid
    FROM
        recipes ro
    WHERE
        ro.embedding is null
        LIMIT 500
)
UPDATE
    recipes r
SET
    embedding = azure_openai.create_embeddings('text-embedding-ada-002', r.recipe_name||' '||r.cuisine_path||' '||r.ingredients||' '||r.nutrition||' '||r.directions)
FROM
    ro
WHERE
    r.rid = ro.rid;

Répétez la commande jusqu’à ce qu’il n’y ait plus de lignes à traiter.

Conseil

Jouez avec la valeur LIMIT. Avec une valeur élevée, l’instruction peut échouer à mi-chemin en raison de la limitation imposée par Azure OpenAI. Si l’instruction échoue, attendez au moins une minute et réexécutez la commande.

Recherche

Créez une fonction de recherche dans votre base de données pour des raisons pratiques :

create function
    recipe_search(searchQuery text, numResults int)
returns table(
            recipeId int,
            recipe_name text,
            nutrition text,
            score real)
as $$
declare
    query_embedding vector(1536);
begin
    query_embedding := (azure_openai.create_embeddings('text-embedding-ada-002', searchQuery));
    return query
    select
        r.rid,
        r.recipe_name,
        r.nutrition,
        (r.embedding <=> query_embedding)::real as score
    from
        recipes r
    order by score asc limit numResults; -- cosine distance
end $$
language plpgsql;

Maintenant, appelez tout simplement la fonction pour effectuer une recherche :

select recipeid, recipe_name, score from recipe_search('vegan recipes', 10);

Puis explorez les résultats :

 recipeid |                         recipe_name                          |   score
----------+--------------------------------------------------------------+------------
      829 | Avocado Toast (Vegan)                                        | 0.15672222
      836 | Vegetarian Tortilla Soup                                     | 0.17583494
      922 | Vegan Overnight Oats with Chia Seeds and Fruit               | 0.17668104
      600 | Spinach and Banana Power Smoothie                            |  0.1773768
      519 | Smokey Butternut Squash Soup                                 | 0.18031077
      604 | Vegan Banana Muffins                                         | 0.18287598
      832 | Kale, Quinoa, and Avocado Salad with Lemon Dijon Vinaigrette | 0.18368931
      617 | Hearty Breakfast Muffins                                     | 0.18737361
      946 | Chia Coconut Pudding with Coconut Milk                       |  0.1884186
      468 | Spicy Oven-Roasted Plums                                     | 0.18994217
(10 rows)

Rétroaction

Cette page vous a-t-elle été utile ?

Last updated on 2025-07-24