Pozyskiwanie danych do Azure Data Lake Storage Gen2

W tym artykule dowiesz się, jak pozyskiwać dane z jednej lokalizacji do innej na koncie magazynu usługi Azure Data Lake Gen 2 (Azure Data Lake Gen 2) przy użyciu usługi Azure Synapse Analytics.

Wymagania wstępne

  • Subskrypcja platformy Azure: jeśli nie masz subskrypcji platformy Azure, przed rozpoczęciem utwórz bezpłatne konto platformy Azure .
  • Konto usługi Azure Storage: używasz usługi Azure Data Lake Gen 2 jako źródłowego magazynu danych. Jeśli nie masz konta magazynu, zobacz Tworzenie konta usługi Azure Storage , aby uzyskać instrukcje tworzenia konta.

Tworzenie połączonych usług

W usłudze Azure Synapse Analytics połączona usługa służy do definiowania informacji o połączeniu z innymi usługami. W tej sekcji dodasz usługi Azure Synapse Analytics i Azure Data Lake Gen 2 jako połączone usługi.

  1. Otwórz środowisko użytkownika usługi Azure Synapse Analytics i przejdź do karty Zarządzanie.
  2. W obszarze Połączenia zewnętrzne wybierz pozycję Połączone usługi.
  3. Aby dodać połączoną usługę, wybierz pozycję Nowy.
  4. Wybierz kafelek Azure Data Lake Storage Gen2 z listy i wybierz pozycję Kontynuuj.
  5. Wprowadź poświadczenia uwierzytelniania. Klucz konta, jednostka usługi i tożsamość zarządzana są obecnie obsługiwanymi typami uwierzytelniania. Wybierz pozycję Testuj połączenie, aby sprawdzić, czy poświadczenia są poprawne.
  6. Po zakończeniu wybierz pozycję Utwórz.

Tworzenie potoku

Potok zawiera logiczny przepływ wykonywania zestawu działań. W tej sekcji utworzysz potok zawierający działanie kopiowania, które pozysuje dane z usługi Azure Data Lake Gen 2 do dedykowanej puli SQL.

  1. Przejdź do karty Orchestrate (Orkiestracja ). Wybierz ikonę znaku plus obok nagłówka potoków i wybierz pozycję Potok.
  2. W obszarze Przenieś i przekształć w okienku działań przeciągnij pozycję Kopiuj dane na kanwę potoku.
  3. Wybierz działanie kopiowania i przejdź do karty Źródło . Wybierz pozycję Nowy , aby utworzyć nowy źródłowy zestaw danych.
  4. Wybierz Azure Data Lake Storage Gen2 jako magazyn danych i wybierz pozycję Kontynuuj.
  5. Wybierz pozycję DelimitedText jako format i wybierz pozycję Kontynuuj.
  6. W okienku właściwości zestawu wybierz utworzoną usługę połączoną ADLS. Określ ścieżkę pliku danych źródłowych i określ, czy pierwszy wiersz ma nagłówek. Schemat można zaimportować z magazynu plików lub przykładowego pliku. Po zakończeniu wybierz przycisk OK.
  7. Przejdź do karty Ujście . Wybierz pozycję Nowy , aby utworzyć nowy zestaw danych ujścia.
  8. Wybierz Azure Data Lake Storage gen2 jako magazyn danych i wybierz pozycję Kontynuuj.
  9. Wybierz pozycję DelimitedText jako format i wybierz pozycję Kontynuuj.
  10. W okienku właściwości zestawu wybierz utworzoną usługę połączoną ADLS. Określ ścieżkę folderu, w którym chcesz zapisywać dane. Po zakończeniu wybierz przycisk OK.

Debugowanie i publikowanie potoku

Po zakończeniu konfigurowania potoku możesz wykonać przebieg debugowania przed opublikowaniem artefaktów, aby sprawdzić, czy wszystko jest poprawne.

  1. Aby debugować potok, wybierz na pasku narzędzi pozycję Debuguj. Na karcie Dane wyjściowe w dolnej części okna wyświetlany jest stan uruchomienia potoku.
  2. Po pomyślnym uruchomieniu potoku na górnym pasku narzędzi wybierz pozycję Opublikuj wszystko. Ta akcja powoduje opublikowanie jednostek (zestawów danych i potoków) utworzonych w usłudze Synapse Analytics.
  3. Poczekaj na wyświetlenie komunikatu Pomyślnie opublikowano. Aby wyświetlić komunikaty powiadomień, wybierz przycisk dzwonka w prawym górnym rogu.

Wyzwalanie i monitorowanie potoku

W tym kroku ręcznie wyzwolisz potok opublikowany w poprzednim kroku.

  1. Wybierz pozycję Dodaj wyzwalacz na pasku narzędzi, a następnie wybierz pozycję Wyzwól teraz. Na stronie Uruchomienie potoku wybierz przycisk Zakończ.
  2. Przejdź do karty Monitorowanie znajdującej się na lewym pasku bocznym. Widoczne jest uruchomienie potoku, które zostało wyzwolone za pomocą wyzwalacza ręcznego. Możesz użyć linków w kolumnie Akcje , aby wyświetlić szczegóły działania i ponownie uruchomić potok.
  3. Aby wyświetlić uruchomienia działań skojarzone z uruchomieniem potoku, wybierz link Wyświetl uruchomienia działań w kolumnie Akcje. W tym przykładzie istnieje tylko jedno działanie, więc na liście jest widoczny tylko jeden wpis. Aby uzyskać szczegółowe informacje na temat operacji kopiowania, wybierz link Szczegóły (ikona okularów) w kolumnie Akcje. Wybierz pozycję Uruchomienia potoku u góry, aby wrócić do widoku Uruchomienia potoku. Aby odświeżyć widok, wybierz pozycję Odśwież.
  4. Sprawdź, czy dane są poprawnie zapisywane w dedykowanej puli SQL.

Następne kroki

Aby uzyskać więcej informacji na temat integracji danych dla usługi Azure Synapse Analytics, zobacz artykuł Pozyskiwanie danych do dedykowanej puli SQL.