Partager via


Guide pratique pour créer un projet de NER personnalisée

Utilisez cet article afin de découvrir comment configurer les conditions requises pour commencer par une NER personnalisée et créer un projet.

Prérequis

Avant de commencer à utiliser la NER personnalisée, vous aurez besoin des éléments suivants :

Créer une ressource Langage

Avant de commencer à utiliser la NER personnalisée, vous aurez besoin d’une ressource Azure AI Language. Il est recommandé de créer votre ressource de langue et de connecter un compte de stockage à celui-ci dans le portail Azure. La création d’une ressource dans le portail Azure vous permet de créer un compte de stockage Azure en même temps, avec toutes les autorisations nécessaires préconfigurées. Vous pouvez également consulter la suite de l’article pour savoir comment utiliser une ressource préexistante et la configurer pour qu’elle fonctionne avec la reconnaissance d’entités nommées personnalisées.

Vous aurez aussi besoin d’un compte de stockage Azure où vous allez charger vos documents .txt qui seront utilisés pour entraîner un modèle à extraire des entités.

Notes

  • Vous devez avoir un rôle de propriétaire affecté sur le groupe de ressources pour créer une ressource de langue.
  • Si vous connecterez un compte de stockage pré-existant, vous devez lui avoir attribué un rôle de propriétaire.

Créer une ressource de langue et connecter un compte de stockage

Vous pouvez créer une ressource de différentes manières :

  • Le portail Azure
  • Language Studio
  • PowerShell

Notes

Vous ne devez pas déplacer le compte de stockage vers un autre groupe de ressources ou un autre abonnement une fois qu’il est lié à la ressource Language.

Créer une ressource à partir du portail Azure

  1. Connectez-vous au Portail Azure pour créer une ressource Azure AI Language.

  2. Dans la fenêtre qui s’affiche, sélectionnez Classification de texte personnalisée et reconnaissance d’entités nommées personnalisées dans les fonctionnalités personnalisées. Sélectionnez Continuer pour créer votre ressource en bas de l’écran.

    Capture d’écran montrant la classification de texte personnalisée et la reconnaissance d'entités nommées personnalisées dans le Portail Azure.

  3. Créez une ressource de langue avec les détails suivants.

    Nom Description
    Abonnement Votre abonnement Azure.
    Resource group Un groupe de ressources comprenant votre ressource. Vous pouvez utiliser un groupe de resources existant ou en créer un.
    Région Région de votre ressource de langue. Par exemple, « USA Ouest 2 ».
    Nom Nom de votre ressource.
    Niveau tarifaire Niveau tarifaire de votre ressource de langue. Vous pouvez utiliser le niveau tarifaire gratuit (F0) pour tester le service.

    Notes

    Si vous recevez un message indiquant « votre compte de connexion n’est pas propriétaire du groupe de ressources du compte de stockage sélectionné », votre compte doit avoir un rôle de propriétaire affecté sur le groupe de ressources avant de pouvoir créer une ressource Language. Pour obtenir de l’aide, contactez le propriétaire de votre abonnement Azure.

  4. Dans la section Classification de texte personnalisée et reconnaissance d’entités nommées personnalisées, sélectionnez un compte de stockage existant ou sélectionnez Nouveau compte de stockage. Ces valeurs vous aident pour un démarrage rapide. Il ne s’agit pas des valeurs du compte de stockage à utiliser dans les environnements de production. Pour éviter la latence lors de la création de votre projet, connectez-vous à des comptes de stockage dans la même région que votre ressource de langue.

    Valeur du compte de stockage Valeur recommandée
    Nom du compte de stockage Nom quelconque
    Type de compte de stockage LRS standard
  5. Vérifiez que l’Avis d’IA responsable est coché. Au bas de la page, sélectionnez Vérifier + créer, puis Créer.

Créer une ressource de langue à partir de Language Studio

Si c’est votre première connexion, une fenêtre s’affiche dans Language Studio qui vous permet de choisir une ressource de langue existante ou d’en créer une. Vous pouvez aussi créer une ressource en cliquant sur l’icône Paramètres dans le coin supérieur droit, en sélectionnant Ressources, puis en cliquant sur Créer une ressource.

Créez une ressource de langue avec les détails suivants.

Détails de l’instance Valeur requise
Abonnement Azure votre abonnement Azure
Groupe de ressources Azure Votre groupe de ressources Azure
Nom de la ressource Azure Nom de votre ressource Azure
Emplacement Région de votre ressource de langue.
Niveau tarifaire Niveau tarifaire de votre ressource de langue.

Important

  • Veillez à activer Identité managée quand vous créez une ressource de langue.
  • Lire et accepter l’avis sur l’intelligence artificielle responsable

Pour utiliser la reconnaissance d’entités nommées personnalisées, vous devez créer un compte Stockage Azure si vous n’en avez pas déjà un.

Créer une ressource de langue à l’aide de PowerShell

Vous pouvez créer une ressource et un compte de stockage en utilisant les fichiers de modèles et de paramètres CLI suivants, qui sont hébergés sur GitHub.

Modifiez les valeurs suivantes dans le fichier de paramètres :

Nom du paramètre Description de la valeur
name Nom de votre ressource Language
location Région où votre ressource est hébergée. Pour plus d’informations, consultez Limites du service.
sku Niveau tarifaire de votre ressource.
storageResourceName Nom de votre compte de stockage
storageLocation Région où votre compte de stockage est hébergé.
storageSkuType Référence SKU de votre compte de stockage.
storageResourceGroupName Groupe de ressources de votre compte de stockage

Utilisez la commande PowerShell suivante pour déployer le modèle Azure Resource Manager (ARM) avec les fichiers que vous avez modifiés.

New-AzResourceGroupDeployment -Name ExampleDeployment -ResourceGroupName ExampleResourceGroup `
  -TemplateFile <path-to-arm-template> `
  -TemplateParameterFile <path-to-parameters-file>

Consultez la documentation du modèle ARM pour plus d’informations sur le déploiement de modèles et les fichiers de paramètres.

Notes

  • Le processus de connexion d’un compte de stockage à votre ressource de langue est irréversible, il ne peut pas être déconnecté ultérieurement.
  • Vous ne pouvez connecter votre ressource de langue qu’à un seul compte de stockage.

Utilisation d’une ressource de langue préexistante

Vous pouvez utiliser une ressource Language existante pour commencer à utiliser la NER personnalisée tant que cette ressource répond aux exigences suivantes :

Condition requise Description
Régions Vérifiez que votre ressource existante est provisionnée dans une des régions prises en charge. Si ce n’est pas le cas, vous devrez créer une ressource dans une de ces régions.
Niveau tarifaire En savoir plus sur les niveaux tarifaires pris en charge.
Identité managée Vérifiez que le paramètre d’identité managée par la ressource est activé. Si ce n’est pas le cas, lisez la section suivante.

Pour utiliser la reconnaissance d’entités nommées personnalisées, vous devez créer un compte Stockage Azure si vous n’en avez pas déjà un.

Activer la gestion des identités pour votre ressource

Votre ressource Language doit disposer de la gestion des identités. Pour l’activer à l’aide du Portail Azure :

  1. Accéder à votre ressource de langue
  2. Dans le menu de gauche, sous la section Gestion des ressources, sélectionnez Identité
  3. Sous l’onglet Attribuée par le système, veillez à définir État sur Activé

Activer la fonctionnalité de reconnaissance d’entités nommées personnalisées

Veillez à activer la fonctionnalité Classification de texte personnalisée / Reconnaissance d’entité nommée personnalisée à partir du portail Azure.

  1. Accédez à votre ressource de langue sur le portail Azure.
  2. Dans le menu de gauche, dans la sectionGestion des ressources, sélectionnez Fonctionnalités.
  3. Activer la fonctionnalité Classification personnalisée des textes / la reconnaissance personnalisée des entités nommées.
  4. Se connecter à votre compte de stockage.
  5. Sélectionnez Appliquer.

Important

  • Assurez-vous que votre ressource de langue dispose d’un rôle de contributeur aux données Blob du stockage affecté sur le compte de stockage que vous connectez.

Ajouter les rôles nécessaires

Procédez comme suit afin de définir les rôles requis pour votre ressource de langue et votre compte de stockage.

Image animée montrant comment configurer des rôles dans le portail Azure.

Rôles pour votre ressource Azure AI Language

  1. Accédez à votre compte de stockage ou ressource de langue dans le portail Azure.

  2. Sélectionnez Contrôle d’accès (IAM) dans le menu de navigation de gauche.

  3. Sélectionnez Ajouter pour Ajouter des attributions de rôles, puis choisissez le rôle approprié pour votre compte.

    Le rôle de propriétaire ou de contributeur doit vous être attribué sur votre ressource de langue.

  4. Dans le champ Attribuer l’accès à, sélectionnez Utilisateur, groupe ou principal du service

  5. Choisir Sélectionner des membres

  6. Sélectionnez votre nom d’utilisateur. Vous pouvez rechercher des noms d’utilisateur dans le champ Sélectionner. Répétez cette opération pour tous les rôles.

  7. Répétez ces étapes pour tous les comptes d’utilisateur qui ont besoin d’accéder à cette ressource.

Rôles pour votre compte de stockage

  1. Accédez à la page de votre compte de stockage dans le portail Azure.
  2. Sélectionnez Contrôle d’accès (IAM) dans le menu de navigation de gauche.
  3. Sélectionnez Ajouter pour ajouter des attributions de rôle, puis choisissez le rôle de contributeur aux données Blob du stockage sur le compte de stockage.
  4. Dans le champ Attribuer l’accès à, sélectionnez Identité managée.
  5. Choisir Sélectionner des membres
  6. Sélectionnez votre abonnement et Langue comme identité managée. Vous pouvez rechercher des noms d’utilisateur dans le champ Sélectionner.

Important

Si vous disposez d’un réseau virtuel ou d’un point de terminaison privé, veillez à sélectionner Autoriser les services Azure dans la liste des services approuvés à accéder à ce compte de stockage dans le portail Azure.

Activer CORS pour votre compte de stockage

Veillez à autoriser les méthodes (GET, PUT, DELETE) au moment d’autoriser le partage de ressources cross-origin (CORS). Définissez le champ des origines autorisées sur https://language.cognitive.azure.com. Autorisez tous les en-têtes en ajoutant * aux valeurs d’en-tête autorisées et définissez l’âge maximal sur 500.

Capture d’écran montrant comment utiliser CORS pour des comptes de stockage.

Créer un projet de reconnaissance d’entité nommée personnalisée

Une fois votre ressource et votre conteneur de stockage configurés, créez un projet de NER personnalisée. Un projet est une zone de travail dans laquelle vous créez vos modèles IA personnalisés à partir de vos données. Vous et les autres personnes qui disposent d’un accès à la ressource Azure utilisée peuvent accéder à votre projet. Si vous disposez de données étiquetées, vous pouvez les utiliser pour commencer en important un projet.

  1. Connectez-vous à Language Studio. Une fenêtre apparaît pour vous permettre de sélectionner votre abonnement et votre ressource Language. Sélectionnez la ressource de langue que vous avez créée à l’étape ci-dessus.

  2. Sous la section Extraire les informations de Language Studio, sélectionnez Reconnaissance d’entités nommées personnalisées.

    Capture d’écran montrant l’emplacement d’un NER personnalisé dans la page d’accueil de Language Studio.

  3. Sélectionnez Créer un projet dans le menu supérieur de la page des projets. La création d’un projet vous permet d’étiqueter des données, d’entraîner, d’évaluer, d’améliorer et de déployer vos modèles.

    Capture d’écran de la page de création de projet.

  4. Une fois que vous avez cliqué sur Créer un projet, une fenêtre apparaît pour vous permettre de connecter votre compte de stockage. Si vous avez déjà connecté un compte de stockage, celui-ci s’affiche. Si ce n’est pas le cas, choisissez votre compte de stockage dans la liste déroulante qui s’affiche, puis sélectionnez Connecter le compte de stockage. Cette opération définit les rôles nécessaires pour votre compte de stockage. Cette étape peut retourner une erreur si le rôle propriétaire ne vous est pas attribué sur le compte de stockage.

    Notes

    • Vous ne devez effectuer cette étape qu’une seule fois pour chaque nouvelle ressource utilisée.
    • Ce processus est irréversible. Si vous connectez un compte de stockage à votre ressource de langue, il n’est pas possible de le déconnecter ultérieurement.
    • Vous pouvez connecter votre ressource de langue à un seul compte de stockage.

    Capture d’écran montrant l’écran de connexion du stockage.

  5. Entrez les informations relatives au projet, notamment son nom, sa description et la langue des fichiers qu’il contient. Si vous utilisez l’exemple de jeu de données, sélectionnez Anglais. Vous ne pourrez plus changer le nom de votre projet. Sélectionnez Suivant.

    Conseil

    Votre jeu de données n’a pas besoin d’être entièrement dans la même langue. Vous pouvez avoir plusieurs fichiers comportant des langues prises en charge différentes. Si votre jeu de données contient des documents en différentes langues ou si vous prévoyez des textes en d’autres langues au moment de l’exécution, sélectionnez l’option Activer un jeu de données multilingue quand vous entrez les informations de base de votre projet. Cette option peut être activée ultérieurement dans la page des Paramètres du projet.

  6. Sélectionnez le conteneur dans lequel vous avez chargé votre jeu de données. Si vous avez déjà étiqueté les données, vérifiez qu’elles respectent le format pris en charge, puis sélectionnez Oui, mes fichiers comportent déjà des étiquettes et j’ai mis en forme le fichier d’étiquettes JSON. Sélectionnez ensuite le fichier d’étiquettes dans le menu déroulant. Sélectionnez Suivant.

  7. Passez en revue les données entrées, puis sélectionnez Créer un projet.

Importer le projet

Si vous disposez déjà de données étiquetées, vous pouvez les utiliser pour commencer à utiliser le service. Assurez-vous que vos données étiquetées utilisent les formats de données acceptés.

  1. Connectez-vous à Language Studio. Une fenêtre apparaît pour vous permettre de sélectionner votre abonnement et votre ressource Language. Sélectionnez votre ressource Language.

  2. Sous la section Extraire les informations de Language Studio, sélectionnez Reconnaissance d’entités nommées personnalisées.

    Capture d’écran montrant l’emplacement de la fonctionnalité de NER personnalisé dans la page d’accueil de Language Studio.

  3. Sélectionnez Créer un projet dans le menu supérieur de la page des projets. La création d’un projet vous permet d’étiqueter des données, d’entraîner, d’évaluer, d’améliorer et de déployer vos modèles.

    Capture d’écran de la page de création de projet.

  4. Une fois que vous avez sélectionné Créer un projet, un écran apparaît pour vous permettre de connecter votre compte de stockage. Si vous ne trouvez pas votre compte de stockage, vérifiez que vous avez créé une ressource en suivant les étapes recommandées. Si vous avez déjà connecté un compte de stockage à votre ressource de langue, vous verrez votre compte de stockage connecté.

    Notes

    • Vous ne devez effectuer cette étape qu’une seule fois pour chaque nouvelle ressource de langue utilisée.
    • Ce processus est irréversible. Si vous connectez un compte de stockage à votre ressource de langue, il n’est pas possible de le déconnecter ultérieurement.
    • Vous pouvez connecter votre ressource de langue à un seul compte de stockage.

    Capture d’écran de l’écran de connexion de stockage pour les nouveaux projets.

  5. Entrez les informations relatives au projet, notamment son nom, sa description et la langue des fichiers qu’il contient. Vous ne pourrez plus changer le nom de votre projet. Sélectionnez Suivant.

    Conseil

    Votre jeu de données n’a pas besoin d’être entièrement dans la même langue. Vous pouvez avoir plusieurs fichiers comportant des langues prises en charge différentes. Si votre jeu de données contient des documents en différentes langues ou si vous prévoyez des textes en d’autres langues au moment de l’exécution, sélectionnez l’option Activer un jeu de données multilingue quand vous entrez les informations de base de votre projet. Cette option peut être activée ultérieurement dans la page des Paramètres du projet.

  6. Sélectionnez le conteneur dans lequel vous avez chargé votre jeu de données.

  7. Sélectionnez Oui, mes fichiers sont déjà étiquetés et j’ai mis en forme le fichier d’étiquettes JSON et sélectionnez le fichier d’étiquettes dans le menu déroulant ci-dessous pour importer votre fichier d’étiquettes JSON. Vérifiez que le fichier respecte le format pris en charge.

  8. Cliquez sur Suivant.

  9. Passez en revue les données entrées, puis sélectionnez Créer un projet.

Obtenir les détails du projet

  1. Accédez à la page des paramètres de votre projet dans Language Studio.

  2. Vous pouvez voir les détails du projet.

  3. Dans cette page, vous pouvez mettre à jour la description du projet et activer/désactiver le jeu de données multilingue dans les paramètres du projet.

  4. Vous pouvez également afficher le compte de stockage et le conteneur connectés à votre ressource de langue.

  5. Vous pouvez également récupérer votre clé de ressource primaire à partir de cette page.

    Capture d’écran de la page de paramètres de projet dans Language Studio.

Supprimer le projet

Une fois que vous n’avez plus besoin de votre projet, vous pouvez le supprimer à l’aide de Language Studio. Sélectionnez Reconnaissance d’entités nommées (NER) personnalisées en haut, sélectionnez le projet à supprimer, puis sélectionnez Supprimer dans le menu du haut.

Étapes suivantes

  • Vous devez avoir une idée du schéma de projet que vous allez utiliser pour étiqueter vos données.

  • Une fois votre projet créé, vous pouvez commencer à étiqueter vos données, ce qui va indiquer à votre modèle d’extraction d’entités comment interpréter le texte, et être utilisé pour l’entraînement et l’évaluation.