Udostępnij za pośrednictwem


Przekształcanie za pomocą usługi Azure Databricks

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Napiwek

Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !

W tym samouczku utworzysz pełny potok zawierający działania walidacji, kopiowania danych i notesu w usłudze Azure Data Factory.

  • Weryfikacja gwarantuje, że źródłowy zestaw danych jest gotowy do użycia podrzędnego przed wyzwoleniem zadania kopiowania i analizy.

  • Kopiowanie danych duplikuje źródłowy zestaw danych do magazynu ujścia, który jest instalowany jako system plików DBFS w notesie usługi Azure Databricks. W ten sposób zestaw danych może być używany bezpośrednio przez platformę Spark.

  • Notes wyzwala notes usługi Databricks, który przekształca zestaw danych. Dodaje również zestaw danych do przetworzonego folderu lub usługi Azure Synapse Analytics.

Dla uproszczenia szablon w tym samouczku nie tworzy zaplanowanego wyzwalacza. W razie potrzeby możesz go dodać.

Diagram potoku

Wymagania wstępne

  • Konto usługi Azure Blob Storage z kontenerem wywoływanym sinkdata do użycia jako ujście.

    Zanotuj nazwę konta magazynu, nazwę kontenera i klucz dostępu. Te wartości będą potrzebne w dalszej części szablonu.

  • Obszar roboczy usługi Azure Databricks.

Importowanie notesu na potrzeby transformacji

Aby zaimportować notes przekształcenia do obszaru roboczego usługi Databricks:

  1. Zaloguj się do obszaru roboczego usługi Azure Databricks, a następnie wybierz pozycję Importuj. Polecenie menu służące do importowania obszaru roboczego Ścieżka obszaru roboczego może być inna niż wyświetlana, ale pamiętaj o niej na później.

  2. Wybierz pozycję Importuj z: adres URL. W polu tekstowym wprowadź .https://adflabstaging1.blob.core.windows.net/share/Transformations.html

    Opcje importowania notesu

  3. Teraz zaktualizujmy notes przekształcenia przy użyciu informacji o połączeniu magazynu.

    W zaimportowanych notesach przejdź do polecenia 5 , jak pokazano w poniższym fragmencie kodu.

    • Zastąp <storage name>wartości i <access key> własnymi informacjami o połączeniu magazynu.
    • Użyj konta magazynu z kontenerem sinkdata .
    # Supply storageName and accessKey values  
    storageName = "<storage name>"  
    accessKey = "<access key>"  
    
    try:  
      dbutils.fs.mount(  
        source = "wasbs://sinkdata\@"+storageName+".blob.core.windows.net/",  
        mount_point = "/mnt/Data Factorydata",  
        extra_configs = {"fs.azure.account.key."+storageName+".blob.core.windows.net": accessKey})  
    
    except Exception as e:  
      # The error message has a long stack track. This code tries to print just the relevant line indicating what failed.
    
    import re
    result = re.findall(r"\^\s\*Caused by:\s*\S+:\s\*(.*)\$", e.message, flags=re.MULTILINE)
    if result:
      print result[-1] \# Print only the relevant error message
    else:  
      print e \# Otherwise print the whole stack trace.  
    
  4. Wygeneruj token dostępu usługi Databricks dla usługi Data Factory, aby uzyskać dostęp do usługi Databricks.

    1. W obszarze roboczym usługi Databricks wybierz ikonę profilu użytkownika w prawym górnym rogu.
    2. Wybierz pozycję Ustawienia użytkownika. Polecenie menu dla ustawień użytkownika
    3. Wybierz pozycję Generuj nowy token na karcie Tokeny dostępu.
    4. Wybierz Generuj.

    Zapisz token dostępu do późniejszego użycia podczas tworzenia połączonej usługi Databricks. Token dostępu wygląda mniej więcej tak: dapi32db32cbb4w6eee18b7d87e45exxxxxx.

Jak używać tego szablonu

  1. Przejdź do szablonu Przekształcanie za pomocą usługi Azure Databricks i utwórz nowe połączone usługi dla następujących połączeń.

    Ustawienie połączeń

    • Połączenie źródłowego obiektu blob — aby uzyskać dostęp do danych źródłowych.

      W tym ćwiczeniu można użyć publicznego magazynu obiektów blob, który zawiera pliki źródłowe. Aby uzyskać informacje o konfiguracji, zobacz poniższy zrzut ekranu. Użyj następującego adresu URL sygnatury dostępu współdzielonego, aby nawiązać połączenie z magazynem źródłowym (dostęp tylko do odczytu):

      https://storagewithdata.blob.core.windows.net/data?sv=2018-03-28&si=read%20and%20list&sr=c&sig=PuyyS6%2FKdB2JxcZN0kPlmHSBlD8uIKyzhBWmWzznkBw%3D

      Wybór metody uwierzytelniania i adresu URL sygnatury dostępu współdzielonego

    • Docelowe połączenie obiektu blob — do przechowywania skopiowanych danych.

      W oknie Nowa połączona usługa wybierz obiekt blob magazynu ujścia.

      Obiekt blob magazynu ujścia jako nowa połączona usługa

    • Azure Databricks — aby nawiązać połączenie z klastrem usługi Databricks.

      Utwórz połączoną usługę Databricks przy użyciu wygenerowanego wcześniej klucza dostępu. Jeśli go masz, możesz wybrać klaster interaktywny. W tym przykładzie użyto opcji Nowy klaster zadań.

      Opcje nawiązywania połączenia z klastrem

  2. Wybierz Użyj tego szablonu. Zobaczysz utworzony potok.

    Tworzenie potoku

Wprowadzenie i konfiguracja potoku

W nowym potoku większość ustawień jest konfigurowana automatycznie z wartościami domyślnymi. Przejrzyj konfiguracje potoku i wprowadź niezbędne zmiany.

  1. W flagi Dostępność działania walidacji sprawdź, czy wartość źródłowego zestawu danych jest ustawiona na SourceAvailabilityDataset utworzoną wcześniej.

    Wartość źródłowego zestawu danych

  2. Na karcie Copy data activity file-to-blob (Kopiowanie pliku do obiektu blob) sprawdź karty Źródło i Ujście . W razie potrzeby zmień ustawienia.

    • Karta ŹródłoKarta Źródło

    • Karta UjścieKarta Ujście

  3. W obszarze Przekształcanie działania Notes przejrzyj i zaktualizuj ścieżki i ustawienia zgodnie z potrzebami.

    Połączona usługa Databricks powinna zostać wstępnie wypełniona wartością z poprzedniego kroku, jak pokazano poniżej: Wypełniona wartość połączonej usługi Databricks

    Aby sprawdzić ustawienia notesu:

    1. Wybierz kartę Ustawienia . W polu Ścieżka notesu sprawdź, czy ścieżka domyślna jest poprawna. Może być konieczne przeglądanie i wybieranie właściwej ścieżki notesu.

      Ścieżka notesu

    2. Rozwiń selektor Podstawowe parametry i sprawdź, czy parametry są zgodne z tym, co pokazano na poniższym zrzucie ekranu. Te parametry są przekazywane do notesu usługi Databricks z usługi Data Factory.

      Parametry podstawowe

  4. Sprawdź, czy parametry potoku są zgodne z tym, co pokazano na poniższym zrzucie ekranu: Parametry potoku

  5. Połącz się z zestawami danych.

    Uwaga

    W poniższych zestawach danych ścieżka pliku została automatycznie określona w szablonie. Jeśli są wymagane jakiekolwiek zmiany, upewnij się, że określono ścieżkę zarówno dla kontenera , jak i katalogu w przypadku wystąpienia błędu połączenia.

    • SourceAvailabilityDataset — aby sprawdzić, czy dane źródłowe są dostępne.

      Opcje dla połączonej usługi i ścieżki pliku dla sourceAvailabilityDataset

    • SourceFilesDataset — aby uzyskać dostęp do danych źródłowych.

      Opcje dla połączonej usługi i ścieżki pliku dla sourceFilesDataset

    • DestinationFilesDataset — aby skopiować dane do lokalizacji docelowej ujścia. Użyj następujących wartości:

      • Połączona usługa - sinkBlob_LS utworzona w poprzednim kroku.

      • Ścieżka - sinkdata/staged_sink pliku.

        Opcje dla połączonej usługi i ścieżki pliku destinationFilesDataset

  6. Wybierz pozycję Debuguj , aby uruchomić potok. Link do dzienników usługi Databricks można znaleźć, aby uzyskać bardziej szczegółowe dzienniki platformy Spark.

    Łącze do dzienników usługi Databricks z danych wyjściowych

    Plik danych można również zweryfikować przy użyciu Eksplorator usługi Azure Storage.

    Uwaga

    W przypadku korelacji z przebiegami potoku usługi Data Factory ten przykład dołącza identyfikator uruchomienia potoku z fabryki danych do folderu wyjściowego. Pomaga to śledzić pliki generowane przez każdy przebieg. Identyfikator przebiegu dołączonego potoku