Ładowanie danych do usługi Azure Data Lake Storage Gen1 przy użyciu usługi Azure Data Factory

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Napiwek

Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !

Azure Data Lake Storage Gen1 (wcześniej znana jako Azure Data Lake Store) to repozytorium hiperskalowe dla całego przedsiębiorstwa dla obciążeń analitycznych danych big data. Usługa Data Lake Storage Gen1 umożliwia przechwytywanie danych o dowolnym rozmiarze, typie i szybkości pozyskiwania. Dane są przechwytywane w jednym miejscu na potrzeby analizy operacyjnej i eksploracyjnej.

Azure Data Factory to w pełni zarządzana usługa integracji danych w chmurze. Za pomocą usługi można wypełnić je danymi z istniejącego systemu i zaoszczędzić czas podczas tworzenia rozwiązań analitycznych.

Usługa Azure Data Factory oferuje następujące korzyści z ładowania danych do usługi Data Lake Storage Gen1:

  • Łatwa konfiguracja: intuicyjny kreator 5-krokowy bez konieczności obsługi skryptów.
  • Obsługa rozbudowanego magazynu danych: wbudowana obsługa rozbudowanego zestawu lokalnych i opartych na chmurze magazynów danych. Aby uzyskać szczegółową listę, zobacz tabelę Obsługiwanych magazynów danych.
  • Bezpieczne i zgodne: dane są przesyłane za pośrednictwem protokołu HTTPS lub usługi ExpressRoute. Obecność usługi globalnej gwarantuje, że dane nigdy nie opuszczają granicy geograficznej.
  • Wysoka wydajność: Do 1 GB/s szybkość ładowania danych do usługi Data Lake Storage Gen1. Aby uzyskać szczegółowe informacje, zobacz działanie Kopiuj wydajność.

W tym artykule pokazano, jak załadować dane z usługi Amazon S3 do usługi Data Lake Storage Gen1 za pomocą narzędzia Data Factory Copy Data Factory. Możesz wykonać podobne kroki, aby skopiować dane z innych typów magazynów danych.

Wymagania wstępne

  • Subskrypcja platformy Azure: jeśli nie masz subskrypcji platformy Azure, przed rozpoczęciem utwórz bezpłatne konto .
  • Konto usługi Data Lake Storage Gen1: jeśli nie masz konta usługi Data Lake Storage Gen1, zapoznaj się z instrukcjami w temacie Tworzenie konta usługi Data Lake Storage Gen1.
  • Amazon S3: W tym artykule pokazano, jak skopiować dane z usługi Amazon S3. Możesz użyć innych magazynów danych, wykonując podobne kroki.

Tworzenie fabryki danych

  1. Jeśli fabryka danych nie została jeszcze utworzona, wykonaj kroki opisane w przewodniku Szybki start: Tworzenie fabryki danych przy użyciu witryny Azure Portal i programu Azure Data Factory Studio , aby je utworzyć. Po utworzeniu przejdź do fabryki danych w witrynie Azure Portal.

    Home page for the Azure Data Factory, with the Open Azure Data Factory Studio tile.

  2. Wybierz pozycję Otwórz na kafelku Otwórz usługę Azure Data Factory Studio, aby uruchomić aplikację Integracja danych na osobnej karcie.

Ładowanie danych do usługi Data Lake Storage Gen1

  1. Na stronie głównej wybierz kafelek Pozyskiwanie , aby uruchomić narzędzie do kopiowania danych:

    Screenshot that shows the ADF home page.

  2. Na stronie Właściwości określ wartość CopyFromAmazonS3ToADLS dla pola Nazwa zadania, a następnie wybierz pozycję Dalej:

    Properties page

  3. Na stronie Źródłowy magazyn danych wybierz pozycję + Utwórz nowe połączenie:

    Source data store page

    Wybierz pozycję Amazon S3, a następnie wybierz pozycję Kontynuuj

    Source data store s3 page

  4. Na stronie Określanie połączenia Amazon S3 wykonaj następujące czynności:

    1. Określ wartość Identyfikator klucza dostępu.

    2. Określ wartość Klucza dostępu tajnego.

    3. Wybierz Zakończ.

      Screenshot shows the New Linked Service pane where you can enter values.

    4. Zostanie wyświetlone nowe połączenie. Wybierz Dalej.

    Screenshot shows your new connection.

  5. Na stronie Wybieranie pliku lub folderu wejściowego przejdź do folderu i pliku, z którego ma zostać przeprowadzone kopiowanie. Wybierz folder/plik, wybierz pozycję Wybierz, a następnie wybierz pozycję Dalej:

    Choose input file or folder

  6. Wybierz zachowanie kopiowania, wybierając opcje Kopiuj pliki rekursywnie i Kopiowanie binarne (kopiowanie plików zgodnie z oczekiwaniami). Wybierz pozycję Dalej:

    Screenshot shows the Choose the input file or folder where you can select Copy file recursively and Binary Copy.

  7. Na stronie Docelowy magazyn danych wybierz pozycję + Utwórz nowe połączenie, a następnie wybierz pozycję Azure Data Lake Storage Gen1, a następnie wybierz pozycję Kontynuuj:

    Destination data store page

  8. Na stronie Nowa połączona usługa (Azure Data Lake Storage Gen1) wykonaj następujące czynności:

    1. Wybierz konto usługi Data Lake Storage Gen1 jako nazwę konta usługi Data Lake Store.
    2. Określ dzierżawę, a następnie wybierz pozycję Zakończ.
    3. Wybierz Dalej.

    Ważne

    W tym przewodniku użyjesz tożsamości zarządzanej dla zasobów platformy Azure do uwierzytelniania konta usługi Data Lake Storage Gen1. Upewnij się, że tożsamość usługi zarządzanej ma odpowiednie uprawnienia w usłudze Data Lake Storage Gen1, postępując zgodnie z tymi instrukcjami.

    Specify Data Lake Storage Gen1 account

  9. Na stronie Wybierz plik wyjściowy lub folder wprowadź wartość copyfroms3 jako nazwę folderu wyjściowego, a następnie wybierz pozycję Dalej:

    Screenshot shows the folder path you enter.

  10. Na stronie Ustawienia wybierz pozycję Dalej:

    Settings page

  11. Na stronie Podsumowanie przejrzyj ustawienia i wybierz pozycję Dalej:

    Summary page

  12. Na stronie Wdrażanie wybierz pozycję Monitor, aby monitorować potok (zadanie):

    Deployment page

  13. Zwróć uwagę, że karta Monitor po lewej stronie jest automatycznie wybrana. Kolumna Akcje zawiera linki do wyświetlania szczegółów przebiegu działania i ponownego uruchamiania potoku:

    Monitor pipeline runs

  14. Aby wyświetlić uruchomienia działań skojarzone z uruchomieniem potoku, wybierz link Wyświetl uruchomienia działań w kolumnie Akcje . W potoku jest tylko jedno działanie (działanie kopiowania), dlatego na liście jest wyświetlana tylko jedna pozycja. Aby wrócić do widoku przebiegów potoku, wybierz link Potoki u góry . Wybierz pozycję Odśwież, aby odświeżyć listę.

    Monitor activity runs

  15. Aby monitorować szczegóły wykonywania dla każdego działania kopiowania, wybierz link Szczegóły w obszarze Akcje w widoku monitorowania działań. Możesz monitorować szczegóły, takie jak ilość danych skopiowanych ze źródła do ujścia, przepływność danych, kroki wykonywania z odpowiednim czasem trwania i używane konfiguracje:

    Monitor activity run details

  16. Sprawdź, czy dane są kopiowane na konto usługi Data Lake Storage Gen1:

    Verify Data Lake Storage Gen1 output

Przejdź do następującego artykułu, aby dowiedzieć się więcej o obsłudze usługi Data Lake Storage Gen1: