Eseguire il training e la registrazione di modelli di Machine Learning con Unity Catalog

Il catalogo di Unity consente di applicare sicurezza con granularità fine alle tabelle e ai modelli durante l'interazione senza problemi con altri componenti di Machine Learning in Azure Databricks. Questo articolo illustra come usare Python per eseguire il training di un modello di Machine Learning usando i dati in Unity Catalog e registrare il modello in Unity Catalog.

Requisiti

  • L'area di lavoro deve essere abilitata per Il catalogo unity.
  • È necessario avere la possibilità di creare un cluster o avere accesso a un cluster in esecuzione in modalità accesso utente singolo.

Creare un cluster di Machine Learning di Databricks

Seguire questa procedura per creare un cluster Databricks Runtime ML a utente singolo in grado di accedere ai dati in Unity Catalog.

  1. Fare clic su compute iconCalcolo.

  2. Fare clic su Crea calcolo.

  3. In Modalità di accesso selezionare Utente singolo.

    Databricks Runtime ML include librerie che richiedono l'uso di cluster a utente singolo. Un singolo cluster utente può essere usato esclusivamente da un singolo utente (per impostazione predefinita, il singolo utente è il proprietario del cluster). Altri utenti non possono connettersi al cluster.

    Per altre informazioni sulle funzionalità disponibili in ogni modalità di accesso, vedere Modalità di accesso.

  4. Nel menu a discesa Versione runtime di Databricks selezionare ML e selezionare 11.3 LTS ML o versione successiva.

  5. Fare clic su Create cluster (Crea cluster).

Creare il catalogo

Seguire questa procedura per creare un nuovo catalogo in cui il team di Machine Learning può archiviare gli asset di dati.

  1. In un'area di lavoro con il metastore assegnato accedere come amministratore del metastore o come utente con il CREATE CATALOG privilegio .

  2. Creare un notebook o aprire l'editor SQL di Databricks.

  3. Eseguire il comando seguente per creare il ml catalogo:

    CREATE CATALOG ml;
    

    Quando si crea un catalogo, al suo interno viene creato automaticamente uno schema denominato default .

  4. Concedere l'accesso al ml catalogo e allo ml.default schema e alla possibilità di creare tabelle e viste al ml_team gruppo. Per includere tutti gli utenti a livello di account, è possibile usare il gruppo account users.

    GRANT USE CATALOG ON CATALOG ml TO `ml team`;
    GRANT USE SCHEMA, CREATE TABLE ON SCHEMA ml.default TO `ml_team`;
    

A questo momento, qualsiasi utente del ml_team gruppo può eseguire il notebook di esempio seguente.

Importare il notebook di esempio

Per iniziare, importare il notebook seguente.

Machine Learning con notebook del catalogo Unity

Ottenere il notebook

Per importare il notebook:

  1. Accanto al notebook fare clic su Copia collegamento per l'importazione.
  2. Nell'area di lavoro fare clic su Workspace IconArea di lavoro.
  3. Accanto a una cartella, fare clic su Down Caret, quindi su Importa
  4. Fare clic su URL, quindi incollare il collegamento copiato.
  5. Il notebook importato viene visualizzato nella cartella selezionata. Fare doppio clic sul nome del notebook per aprirlo.
  6. Nella parte superiore del notebook selezionare il cluster di Machine Learning di Databricks per collegarvi il notebook.

Il notebook è suddiviso in diverse sezioni generali:

  1. Programma di installazione.
  2. Leggere i dati dai file CSV e scriverli in Unity Catalog.
  3. Caricare i dati in dataframe Pandas e pulirli.
  4. Eseguire il training di un modello di classificazione di base.
  5. Ottimizzare gli iperparametri e ottimizzare il modello.
  6. Registrare il modello nel catalogo unity.
  7. Scrivere i risultati in una nuova tabella e condividerli con altri utenti.

Per eseguire una cella, fare clic su Run IconEsegui. Per eseguire l'intero notebook, fare clic su Esegui tutto.