Registrieren von Daten aus Azure Data Lake Storage Gen1 in Azure Data Catalog
In diesem Artikel erfahren Sie, wie Sie Azure Data Lake Storage Gen1 in Azure Data Catalog integrieren, um Ihre Daten mittels Integration in Data Catalog innerhalb einer Organisation auffindbar zu machen. Weitere Informationen zum Katalogisieren von Daten finden Sie unter Azure Data Catalog. Informationen zu den Szenarien, in denen Sie Data Catalog verwenden können, finden Sie unter Häufige Szenarien mit Azure Data Catalog.
Voraussetzungen
Bevor Sie mit diesem Tutorial beginnen können, benötigen Sie Folgendes:
Ein Azure-Abonnement. Siehe Kostenlose Azure-Testversion.
Aktiviertes Azure-Abonnement für Data Lake Storage Gen1. Weitere Informationen finden Sie in den Anweisungen.
Ein Data Lake Storage Gen1-Konto. Befolgen Sie die Anweisungen unter Erste Schritte mit Azure Data Lake Storage Gen1 über das Azure-Portal. Erstellen Sie für dieses Tutorial ein Data Lake Storage Gen1-Konto namens datacatalogstore.
Nachdem Sie das Konto erstellt haben, laden Sie ein Beispieldataset in das Konto hoch. In diesem Tutorial laden wir alle CSV-Dateien im Ordner AmbulanceData in das Azure Data Lake-Git-Repository hoch. Sie können verschiedene Clients verwenden, z.B. den Azure Storage-Explorer, um Daten in einen Blobcontainer hochzuladen.
Azure Data Catalog. In Ihrer Organisation muss bereits ein Azure Data Catalog für Ihre Organisation erstellt worden sein. Nur ein Katalog ist für jede Organisation zulässig.
Registrieren von Data Lake Storage Gen1 als Quelle für Data Catalog
Navigieren Sie zu
https://azure.microsoft.com/services/data-catalog
, und klicken Sie auf Erste Schritte.Melden Sie sich beim Azure Data Catalog-Portal an, und klicken Sie auf Daten veröffentlichen.
Klicken Sie auf der nächsten Seite auf Anwendung starten. Dadurch wird die Manifestdatei der Anwendung auf Ihren Computer heruntergeladen. Doppelklicken Sie auf die Manifestdatei, um die Anwendung zu starten.
Klicken Sie auf der Seite „Willkommen“ auf Anmelden, und geben Sie Ihre Anmeldeinformationen ein.
Wählen Sie auf der Seite „Datenquelle auswählen“ die Option Azure Data Lake Store aus, und klicken Sie dann auf Weiter.
Geben Sie auf der nächsten Seite den Namen des Data Lake Storage Gen1-Kontos an, das Sie in Data Catalog registrieren möchten. Behalten Sie für die anderen Optionen die Standardwerte bei, und klicken Sie dann auf Verbinden.
Die nächste Seite kann in die folgenden Segmente aufgeteilt werden.
a. Das Feld Serverhierarchie stellt die Ordnerstruktur des Data Lake Storage Gen1-Kontos dar. $Root stellt den Stamm des Data Lake Storage Gen1-Kontos dar, und AmbulanceData steht für den Ordner, der im Stamm des Data Lake Storage Gen1-Kontos erstellt wurde.
b. Im Feld Verfügbare Objekte werden die Dateien und Ordner im Ordner AmbulanceData aufgeführt.
c. Im Feld Zu registrierende Objekte werden die Dateien und Ordner aufgeführt, die Sie in Azure Data Catalog registrieren möchten.
Für dieses Tutorial sollten Sie alle Dateien im Verzeichnis registrieren. Klicken Sie auf die Schaltfläche ( ), um alle Dateien in das Feld Zu registrierende Objekte zu verschieben.
Da die Daten in einem organisationsweiten Datenkatalog registriert werden, empfiehlt es sich, einige Metadaten hinzuzufügen, die Sie später verwenden können, um die Daten schnell zu finden. Sie können z.B. eine E-Mail-Adresse für den Besitzer der Daten (z.B. der, der die Daten hochlädt) oder ein Tag zum Identifizieren der Daten hinzufügen. Der folgende Screenshot zeigt ein Tag, das Sie den Daten hinzufügen.
Klicken Sie auf Registrieren.
Die folgende Screenshot gibt an, dass die Daten erfolgreich in Data Catalog registriert wurden.
Klicken Sie auf Portal anzeigen , um zum Data Catalog-Portal zurückzukehren, und stellen Sie sicher, dass Sie jetzt über das Portal auf die registrierten Daten zugreifen können. Um die Daten zu suchen, können Sie das Tag verwenden, das Sie beim Registrieren der Daten angegeben haben.
Sie können nun Vorgänge wie Hinzufügen von Anmerkungen und Dokumenten zu den Daten ausführen. Weitere Informationen finden Sie unter den folgenden Links.