Entraîner et inscrire des modèles Machine Learning avec Unity Catalog

Unity Catalog vous permet d’appliquer une sécurité fine à des tables et modèles, tout en interagissant de façon transparente avec d’autres composants d’apprentissage automatique dans Azure Databricks. Cet article montre comment utiliser Python pour effectuer l’apprentissage d’un modèle Machine Learning à l’aide de données figurant de Unity Catalog et inscrire le modèle dans Unity Catalog.

Spécifications

  • Vous devez activer votre espace de travail pour Unity Catalog.
  • Vous devez être en mesure de créer un cluster ou d’avoir accès à un cluster exécuté dans un mode d’accès mono-utilisateur.

Créer un cluster Databricks Machine Learning

Suivez ces étapes pour créer un cluster Databricks Runtime ML mono-utilisateur pouvant accéder aux données dans Unity Catalog.

  1. Cliquez sur compute iconCalcul.

  2. Cliquez sur Créer un calcul.

  3. Sous Mode d'accès, sélectionnez Utilisateur unique.

    Databricks Runtime ML inclut des bibliothèques qui nécessitent l’utilisation de clusters à utilisateur unique. Un cluster à utilisateur unique peut être utilisé exclusivement par un seul utilisateur (par défaut, l’utilisateur unique est le propriétaire du cluster). Les autres utilisateurs ne peuvent pas s’attacher au cluster.

    Pour plus d'informations sur les fonctionnalités disponibles dans chaque mode d'accès, consultez les modes d'accès.

  4. Dans le menu déroulant Version du runtime Databricks, sélectionnez ML, puis 11.3 LTS ML ou une version ultérieure.

  5. Cliquez sur Créer un cluster.

Créer le catalogue

Procédez comme suit pour créer un nouveau catalogue dans lequel votre équipe Machine Learning peut stocker ses ressources de données.

  1. Dans un espace de travail auquel le metastore est attribué, connectez-vous en tant qu’administrateur du metastore ou en tant qu’utilisateur disposant du privilège CREATE CATALOG.

  2. Créez un bloc-notes ou ouvrez l’éditeur de SQL Databricks.

  3. Exécutez la commande suivante pour créer le catalogue ml :

    CREATE CATALOG ml;
    

    Lorsque vous créez un catalogue, un schéma nommé default est automatiquement créé dans celui-ci.

  4. Accordez l’accès au catalogue ml et au schéma ml.default, ainsi que la possibilité de créer des tables et des vues, dans le groupeml_team. Pour inclure tous les utilisateurs au niveau du compte, vous pouvez utiliser le groupe account users.

    GRANT USE CATALOG ON CATALOG ml TO `ml team`;
    GRANT USE SCHEMA, CREATE TABLE ON SCHEMA ml.default TO `ml_team`;
    

À présent, n’importe quel utilisateur du groupe ml_team peut exécuter l’exemple de bloc-notes suivant.

Importez le notebook d'exemples

Pour commencer, importez le bloc-notes suivant.

Machine Learning avec notebook Unity Catalog

Obtenir le notebook

Pour importer le bloc-notes :

  1. En regard du bloc-notes, cliquez sur Copier le lien à importer.
  2. Dans votre espace de travail, cliquez sur Workspace IconEspace de travail.
  3. À côté d'un dossier, cliquez Down Caret, puis cliquez sur Importer.
  4. Cliquez sur URL, puis collez le lien que vous avez copié.
  5. Le bloc-notes importé s’affiche dans le dossier que vous avez sélectionné. Double-cliquez sur le nom du bloc-notes pour l’ouvrir.
  6. en haut du bloc-notes, sélectionnez votre cluster Databricks Machine Learning pour y attacher le bloc-notes.

Le bloc-notes est divisé en plusieurs sections de haut niveau :

  1. .
  2. Lire des données à partir de fichiers CSV et les écrire dans le catalogue Unity.
  3. Chargez les données dans pandas trames et nettoyez-les.
  4. Entraîner un modèle de classification binaire
  5. Réglez les hyperparamètres et optimisez le modèle.
  6. Inscrire le modèle dans Unity Catalog.
  7. Écrire les résultats dans une nouvelle table et les partager avec d’autres utilisateurs.

Pour exécuter une cellule, cliquez sur l'Run IconExécuter. Pour exécuter l’intégralité du bloc-notes, cliquez sur exécuter tout.