Registrare i dati di Azure Data Lake Storage Gen1 in Azure Data Catalog
Questo articolo descrive come integrare Azure Data Lake Storage Gen1 con Azure Data Catalog per rendere i dati individuabili all'interno dell'organizzazione integrandoli con Azure Data Catalog. Per altre informazioni sulla catalogazione dei dati, vedere Azure Data Catalog. Per informazioni sugli scenari in cui è possibile usare il catalogo dati, vedere l'articolo relativo agli scenari comuni di Azure Data Catalog.
Prerequisiti
Prima di iniziare questa esercitazione, è necessario disporre di quanto segue:
Una sottoscrizione di Azure. Vedere Ottenere una versione di prova gratuita di Azure.
Abilitare la sottoscrizione di Azure per Data Lake Storage Gen1. Vedere le istruzioni.
Un account Data Lake Storage Gen1. Seguire le istruzioni fornite in Introduzione ad Azure Data Lake Storage Gen1 con il portale di Azure. Per questa esercitazione, creare un account Data Lake Storage Gen1 denominato datacatalogstore.
Dopo aver creato l'account, caricare un set di dati di esempio. Per questa esercitazione, caricare tutti i file con estensione csv nella cartella AmbulanceData del repository Git di Azure Data Lake. È possibile usare vari tipi di client, ad esempio Azure Storage Explorer, per caricare i dati in un contenitore BLOB.
Azure Data Catalog. È necessario che per l'organizzazione sia già stato creato un catalogo di Azure Data Catalog. Per ogni organizzazione è consentito un solo catalogo.
Registrare Data Lake Storage Gen1 come origine per Data Catalog
Passare a
https://azure.microsoft.com/services/data-catalog
e fare clic su Introduzione.Accedere al portale di Azure Data Catalog e fare clic su Pubblica dati.
Nella pagina successiva fare clic su Avvia applicazione. Verrà scaricato il file manifesto dell'applicazione nel computer in uso. Fare doppio clic sul file manifesto per avviare l'applicazione.
Nella pagina iniziale fare clic su Accedi e immettere le credenziali.
Nella pagina Selezionare un'origine dati selezionare Azure Data Lake Store e quindi fare clic su Avanti.
Nella pagina successiva specificare il nome dell'account Data Lake Storage Gen1 che si vuole registrare in Data Catalog. Lasciare l'impostazione predefinita per le altre opzioni e quindi fare clic su Connetti.
La pagina successiva può essere suddivisa nei segmenti seguenti.
a. La casella Gerarchia server rappresenta la struttura della cartella dell'account Data Lake Storage Gen1. $Root rappresenta la radice dell'account Data Lake Storage Gen1, mentre AmbulanceData rappresenta la cartella creata nella radice dell'account Data Lake Storage Gen1.
b. La casella Oggetti disponibili elenca i file e le cartelle sotto la cartella AmbulanceData.
c. La casella Oggetti da registrare elenca i file e le cartelle da registrare in Azure Data Catalog.
Per questa esercitazione, è necessario registrare tutti i file nella directory. Per questo, fare clic sul pulsante (
) per spostare tutti i file in Oggetti da registrare.
Poiché i dati vengono registrati in un catalogo dati dell'organizzazione, è consigliabile aggiungere alcuni metadati che è possibile usare in un secondo momento per individuare rapidamente i dati. Ad esempio, è possibile aggiungere un indirizzo di posta elettronica per il proprietario dei dati (ad esempio, uno che si occupa del caricamento dei dati) o aggiungere un tag per identificare i dati. La schermata seguente mostra un tag aggiunto ai dati.
Fare clic su Registra.
La schermata seguente indica che i dati sono stati registrati correttamente nel catalogo dati.
Struttura
Fare clic su Visualizza portale per tornare al portale di Data Catalog e verificare che sia quindi possibile accedere ai dati registrati dal portale. Per cercare i dati, è possibile usare il tag che è stato usato durante la registrazione dei dati.
È ora possibile eseguire operazioni come l'aggiunta di annotazioni e documentazione ai dati. Per altre informazioni, vedere i collegamenti seguenti: