Bezpieczne kopiowanie danych z usługi Azure Blob Storage do bazy danych SQL przy użyciu prywatnych punktów końcowych

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Napiwek

Data Factory w usłudze Microsoft Fabric jest następną generacją Azure Data Factory z prostszą architekturą, wbudowaną sztuczną inteligencją i nowymi funkcjami. Jeśli dopiero zaczynasz integrować dane, zacznij od Fabric Data Factory. Istniejące obciążenia ADF można zaktualizować do Fabric, aby uzyskać dostęp do nowych możliwości w zakresie nauki o danych, analiz w czasie rzeczywistym oraz raportowania.

W tym samouczku za pomocą interfejsu użytkownika Azure Data Factory utworzysz fabrykę danych. Potok w tej fabryce danych bezpiecznie kopiuje dane z usługi Azure Blob Storage do bazy danych Azure SQL, obie z zezwoleniem na dostęp tylko dla wybranych sieci, przy użyciu prywatnych punktów końcowych w Azure Data Factory Zarządzana Sieć Wirtualna. Wzorzec konfiguracji w tym samouczku ma zastosowanie do kopiowania danych z magazynu danych opartego na plikach do relacyjnego magazynu danych. Aby uzyskać listę magazynów danych obsługiwanych jako źródła i ujścia, zobacz tabelę Obsługiwane magazyny danych i formaty . Funkcja prywatnych punktów końcowych jest dostępna we wszystkich warstwach Azure Data Factory, więc do korzystania z nich nie jest wymagana żadna konkretna warstwa. Aby uzyskać więcej informacji na temat cen i warstw, zobacz stronę cennika Azure Data Factory.

Uwaga

Jeśli dopiero zaczynasz korzystać z usługi Data Factory, zobacz Wprowadzenie do usługi Azure Data Factory.

W tym samouczku wykonasz następujące kroki:

  • Tworzenie fabryki danych.
  • Utwórz potok danych z działaniem kopiowania.

Wymagania wstępne

  • Subskrypcja Azure. Jeśli nie masz subskrypcji Azure, przed rozpoczęciem utwórz konto free Azure.
  • Azure konto magazynowe Używasz magazynu obiektów blob jako magazynu danych źródłowych. Jeśli nie masz konta magazynu, zobacz Utwórz konto magazynu Azure aby uzyskać instrukcje tworzenia konta. Upewnij się, że konto zasobów zezwala tylko na dostęp z wybranych sieci.
  • Azure SQL Database. Baza danych jest używana jako magazyn danych będący ujściem. Jeśli nie masz bazy danych Azure SQL, zobacz Tworzenie bazy danych SQL aby uzyskać instrukcje tworzenia bazy danych. Upewnij się, że konto usługi SQL Database zezwala na dostęp tylko z wybranych sieci.

Utwórz obiekt blob i tabelę SQL

Teraz przygotuj magazyn obiektów blob i bazę danych SQL na potrzeby samouczka, wykonując następujące kroki.

Utwórz źródłowy blob

  1. Otwórz Notatnik. Skopiuj poniższy tekst i zapisz go na dysku jako plik emp.txt:

    FirstName,LastName
    John,Doe
    Jane,Doe
    
  2. Utwórz kontener o nazwie adftutorial w magazynie obiektów blob. W tym kontenerze utwórz folder o nazwie input. Następnie przekaż plik emp.txt do folderu input. Aby wykonać te zadania, użyj portalu Azure lub narzędzi, takich jak Azure Storage Explorer.

Tworzenie tabeli SQL docelowej

Utwórz tabelę dbo.emp w bazie danych SQL przy użyciu poniższego skryptu SQL:

CREATE TABLE dbo.emp
(
    ID int IDENTITY(1,1) NOT NULL,
    FirstName varchar(50),
    LastName varchar(50)
)
GO

CREATE CLUSTERED INDEX IX_emp_ID ON dbo.emp (ID);

Tworzenie fabryki danych

W tym kroku utworzysz fabrykę danych i uruchomisz interfejs użytkownika usługi Data Factory, aby utworzyć potok w fabryce danych.

  1. Otwórz Microsoft Edge lub Google Chrome. Obecnie tylko przeglądarki internetowe Microsoft Edge i Google Chrome obsługują interfejs użytkownika usługi Data Factory.

  2. W menu po lewej stronie wybierz pozycję Utwórz zasób>Analiza>Data Factory.

  3. Na stronie Nowa fabryka danych w polu Nazwa wprowadź wartość ADFTutorialDataFactory.

    Nazwa fabryki danych Azure musi być unikatowa na całym świecie. Jeśli zostanie wyświetlony komunikat o błędzie dotyczący wartości nazwy, wprowadź inną nazwę fabryki danych (na przykład yournameADFTutorialDataFactory). Reguły nazewnictwa dla artefaktów usługi Data Factory można znaleźć w artykule Data Factory — reguły nazewnictwa.

  4. Wybierz Azure subskrypcję w której chcesz utworzyć fabrykę danych.

  5. W obszarze Grupa zasobów wykonaj jedną z następujących czynności:

    • Wybierz pozycję Użyj istniejącej, a następnie wybierz istniejącą grupę zasobów z listy rozwijanej.
    • Wybierz pozycję Utwórz nową, a następnie wprowadź nazwę grupy zasobów.

    Aby dowiedzieć się więcej o grupach zasobów, zobacz Użyj grupy zasobów do zarządzania zasobami Azure.

  6. W obszarze Wersja wybierz pozycję V2.

  7. W obszarze Lokalizacja wybierz lokalizację fabryki danych. Na liście rozwijanej są wyświetlane tylko obsługiwane lokalizacje. Magazyny danych (na przykład Azure Storage i SQL Database) i obliczenia (na przykład Azure HDInsight) używane przez fabrykę danych mogą znajdować się w innych regionach.

  8. Wybierz pozycję Utwórz.

  9. Po zakończeniu tworzenia zostanie wyświetlone powiadomienie w Centrum powiadomień. Wybierz pozycję Przejdź do zasobu , aby przejść do strony Fabryka danych .

  10. Wybierz Otwórz na kafelku Open Azure Data Factory Studio, aby uruchomić interfejs użytkownika Data Factory na osobnej karcie.

Tworzenie środowiska Azure Integration Runtime w zarządzanej sieci wirtualnej Data Factory

W tym kroku utworzysz środowisko Azure Integration Runtime i włączysz usługę Data Factory Managed Virtual Network.

  1. W portalu usługi Data Factory przejdź do Manage i wybierz pozycję Nowy aby utworzyć nowe środowisko Integration Runtime Azure.

    Screenshot przedstawiający tworzenie nowego środowiska Azure Integration Runtime.

  2. Na stronie Konfiguracja środowiska Integration Runtime wybierz środowisko Integration Runtime, które ma zostać utworzone na podstawie wymaganych możliwości. W tym samouczku wybierz pozycję Azure, Self-Hosted a następnie kliknij pozycję Continue.

  3. Wybierz Azure a następnie kliknij pozycję Continue aby utworzyć środowisko Integration Runtime Azure.

    Zrzut ekranu przedstawiający nowe środowisko uruchomieniowe integracji Azure.

  4. W obszarze Konfiguracja sieci wirtualnej (wersja zapoznawcza) wybierz pozycję Włącz.

    Screenshot przedstawiający włączanie nowego środowiska Azure Integration Runtime.

  5. Wybierz pozycję Utwórz.

Stwórz pipeline

W tym kroku utworzysz potok przetwarzania z działaniem kopiowania w Azure Data Factory. Działanie kopiowania kopiuje dane z Blob storage do bazy danych SQL. W przewodniku szybkiego startu utworzono potok, postępując zgodnie z następującymi krokami:

  1. Utwórz połączoną usługę.
  2. Utworzenie wejściowych i wyjściowych zestawów danych.
  3. Utwórz potok.

W tym samouczku zaczniesz od utworzenia potoku. Następnie utworzysz usługi połączone i zestawy danych, gdy będą potrzebne do skonfigurowania potoku.

  1. Na stronie głównej wybierz opcję Zarządzanie Orkiestracją.

    Zrzut ekranu przedstawiający stronę główną Data Factory z wyróżnionym przyciskiem Orchestrate.

  2. W okienku właściwości potoku wprowadź wartość CopyPipeline jako nazwę potoku.

  3. W oknie narzędzia Działania rozwiń kategorię Przenieś i Przekształć, a następnie przeciągnij działanie Kopiuj dane z pola narzędzia do powierzchni projektanta potoku. Wprowadź wartość CopyFromBlobToSql jako nazwę.

    Zrzut ekranu przedstawiający działanie kopiowania.

Konfigurowanie źródła

Napiwek

W tym samouczku użyjesz klucza konta jako typu uwierzytelniania dla źródłowego magazynu danych. W razie potrzeby możesz również wybrać inne obsługiwane metody uwierzytelniania, takie jak SAS URI, tożsamość usługi i Tożsamość zarządzana. Aby uzyskać więcej informacji, zobacz odpowiednie sekcje w Kopiowanie i przekształcanie danych w Azure Blob Storage przy użyciu Azure Data Factory.

Aby bezpiecznie przechowywać sekrety magazynów danych, zalecamy również użycie Azure Key Vault. Aby uzyskać więcej informacji i ilustracji, zobacz Store credentials in Azure Key Vault.

Tworzenie źródłowego zestawu danych i połączonej usługi

  1. Przejdź do karty Źródło . Wybierz pozycję + Nowy , aby utworzyć źródłowy zestaw danych.

  2. W oknie dialogowym Nowy zestaw danych wybierz pozycję Azure Blob Storage, a następnie wybierz pozycję Continue. Dane źródłowe są w usłudze Blob Storage, dlatego wybierz Azure Blob Storage dla źródłowego zestawu danych.

  3. W oknie dialogowym Wybieranie formatu wybierz typ formatu danych, a następnie wybierz pozycję Kontynuuj.

  4. W oknie dialogowym Ustawianie właściwości wprowadź SourceBlobDataset dla Nazwa. Zaznacz pole wyboru Pierwszy wiersz jako nagłówek. W polu tekstowym Połączona usługa wybierz pozycję + nowy.

  5. W oknie dialogowym Nowa połączona usługa (Azure Blob Storage), wprowadź AzureStorageLinkedService jako nazwę Nazwa i wybierz konto magazynu z listy Nazwa konta magazynowego.

  6. Upewnij się, że włączono tworzenie interakcyjne. Włączenie tej opcji może potrwać około jednej minuty.

    Zrzut ekranu przedstawiający tworzenie interakcyjne.

  7. Wybierz pozycję Testuj połączenie. Powinno się to nie powieść, gdy konto magazynu zezwala na dostęp tylko z wybranych sieci i wymaga, aby usługa Data Factory utworzyła dla niego prywatny punkt końcowy, który powinien zostać zatwierdzony przed jego użyciem. W komunikacie o błędzie powinien być wyświetlony link umożliwiający utworzenie prywatnego punktu końcowego, który można użyć, aby utworzyć zarządzany prywatny punkt końcowy. Alternatywą jest przejście bezpośrednio do karty Zarządzanie i wykonanie instrukcji w następnej sekcji , aby utworzyć zarządzany prywatny punkt końcowy.

    Uwaga

    Karta Zarządzanie może nie być dostępna dla wszystkich wystąpień Data Factory. Jeśli go nie widzisz, możesz uzyskać dostęp do prywatnych punktów końcowych, wybierając Autor>Połączenia>Prywatny punkt końcowy.

  8. Pozostaw otwarte okno dialogowe i przejdź do konta magazynowego.

  9. Postępuj zgodnie z instrukcjami w tej sekcji , aby zatwierdzić link prywatny.

  10. Wróć do okna dialogowego. Wybierz ponownie pozycję Testuj połączenie i wybierz pozycję Utwórz , aby wdrożyć połączoną usługę.

  11. Po utworzeniu połączonej usługi powraca na stronę Ustawianie właściwości. Wybierz przycisk Przeglądaj obok pozycji Ścieżka pliku.

  12. Przejdź do folderu adftutorial/input , wybierz plik emp.txt , a następnie wybierz przycisk OK.

  13. Wybierz przycisk OK. Automatycznie przechodzi do strony procesu. Na karcie Źródło upewnij się, że wybrano pozycję SourceBlobDataset. Aby wyświetlić podgląd danych na tej stronie, wybierz pozycję Podgląd danych.

    Zrzut ekranu przedstawiający źródłowy zestaw danych.

Tworzenie zarządzanego prywatnego punktu końcowego

Jeśli nie wybrano hiperlinku podczas testowania połączenia, postępuj zgodnie ze ścieżką. Teraz będziesz musiał utworzyć zarządzany prywatny punkt końcowy, do którego połączysz powiązaną usługę, którą utworzyłeś.

  1. Przejdź do karty Zarządzanie .

    Uwaga

    Karta Zarządzanie może nie być dostępna dla wszystkich wystąpień usługi Data Factory. Jeśli go nie widzisz, możesz uzyskać dostęp do prywatnych punktów końcowych, wybierając Autor>Połączenia>Prywatny punkt końcowy.

  2. Przejdź do sekcji Zarządzane prywatne punkty końcowe .

  3. Wybierz + Nowy w obszarze Zarządzane punkty końcowe prywatne.

    Zrzut ekranu przedstawiający przycisk Nowe zarządzane prywatne punkty końcowe.

  4. Wybierz kafelek Azure Blob Storage z listy i wybierz Continue.

  5. Wprowadź nazwę utworzonego konta pamięci masowej.

  6. Wybierz pozycję Utwórz.

  7. Po kilku sekundach powinno zostać wyświetlone, że utworzony link prywatny wymaga zatwierdzenia.

  8. Wybierz utworzony prywatny punkt końcowy. Możesz zobaczyć hiperlink, który prowadzi do zatwierdzenia prywatnego punktu końcowego na poziomie konta magazynowego.

    Zrzut ekranu przedstawiający okienko Zarządzane prywatne punkty końcowe.

  1. Na koncie magazynu przejdź do Prywatne połączenia punktu końcowego w sekcji Ustawienia.

  2. Zaznacz pole wyboru dla utworzonego prywatnego punktu końcowego, a następnie wybierz pozycję Zatwierdź.

    Zrzut ekranu przedstawiający przycisk Zatwierdź dla prywatnego punktu końcowego.

  3. Dodaj opis i wybierz pozycję Tak.

  4. Wróć do sekcji Zarządzane prywatne punkty końcowe na karcie Zarządzanie w usłudze Data Factory.

  5. Po około jednej lub dwóch minutach w interfejsie użytkownika usługi Data Factory powinno zostać wyświetlone zatwierdzenie prywatnego punktu końcowego.

Skonfiguruj odbiornik

Napiwek

W tym samouczku użyjesz uwierzytelniania SQL jako rodzaju uwierzytelniania dla docelowego magazynu danych. W razie potrzeby możesz również wybrać inne obsługiwane metody uwierzytelniania, takie jak główna usługa i zarządzana tożsamość. Aby uzyskać więcej informacji, zobacz odpowiednie sekcje w Kopiowanie i przekształcanie danych w bazie danych Azure SQL przy użyciu Azure Data Factory.

Aby bezpiecznie przechowywać sekrety magazynów danych, zalecamy również użycie Azure Key Vault. Aby uzyskać więcej informacji i ilustracji, zobacz Store credentials in Azure Key Vault.

Utwórz zestaw danych wyjściowy i połączoną usługę

  1. Przejdź do karty Ujście, a następnie wybierz pozycję + Nowy, aby utworzyć zestaw danych będący ujściem.

  2. W oknie dialogowym Nowy zestaw danych wprowadź ciąg SQL w polu wyszukiwania, aby filtrować łączniki. Wybierz Azure SQL Database, a następnie wybierz Continue. W tym samouczku skopiujesz dane do bazy danych SQL.

  3. W oknie dialogowym Ustawianie właściwości wprowadź wartość OutputSqlDataset w polu Nazwa. Z listy rozwijanej Usługi połączonej wybierz pozycję + Nowa. Zestaw danych musi być skojarzony z połączoną usługą. Połączona usługa ma ciąg połączenia używany przez usługę Data Factory do nawiązywania połączenia z bazą danych SQL w trakcie wykonywania. Zestaw danych określa kontener, folder i plik (opcjonalnie), do którego dane są kopiowane.

  4. W oknie dialogowym Nowa połączona usługa (Azure SQL Database) wykonaj następujące czynności:

    1. W obszarze Nazwa wprowadź wartość AzureSqlDatabaseLinkedService.
    2. W obszarze Nazwa serwera wybierz wystąpienie SQL Server.
    3. Upewnij się, że włączono tworzenie interakcyjne.
    4. Pod Nazwa bazy danych wybierz swoją bazę danych SQL.
    5. W polu Nazwa użytkownika wprowadź nazwę użytkownika.
    6. W polu Hasło wprowadź hasło użytkownika.
    7. Wybierz pozycję Testuj połączenie. Powinno to zakończyć się niepowodzeniem, ponieważ serwer SQL zezwala na dostęp tylko z wybranych sieci i wymaga, aby usługa Data Factory utworzyła dla niego prywatny punkt końcowy, który powinien zostać zatwierdzony przed jego użyciem. W komunikacie o błędzie powinien być wyświetlony link umożliwiający utworzenie prywatnego punktu końcowego, który można użyć, aby utworzyć zarządzany prywatny punkt końcowy. Alternatywą jest przejście bezpośrednio do karty Zarządzanie i wykonanie instrukcji w następnej sekcji, aby utworzyć zarządzany prywatny punkt końcowy.
    8. Pozostaw otwarte okno dialogowe, a następnie przejdź do wybranego serwera SQL.
    9. Postępuj zgodnie z instrukcjami w tej sekcji , aby zatwierdzić link prywatny.
    10. Wróć do okna dialogowego. Wybierz ponownie pozycję Testuj połączenie i wybierz pozycję Utwórz , aby wdrożyć połączoną usługę.
  5. Automatycznie przechodzi do okna dialogowego Ustawianie właściwości . W obszarze Tabela wybierz pozycję [dbo].[emp]. Następnie wybierz opcję OK.

  6. Przejdź do karty z potokiem i w zestawie danych wyjściowych upewnij się, że zaznaczono OutputSqlDataset.

    Zrzut ekranu przedstawiający zakładkę Pipeline.

Opcjonalnie można mapować schemat źródła na odpowiedni schemat miejsca docelowego, postępując zgodnie z mapowaniem schematu w działaniu kopiowania.

Tworzenie zarządzanego prywatnego punktu końcowego

Jeśli nie wybrano hiperlinku podczas testowania połączenia, postępuj zgodnie ze ścieżką. Teraz będziesz musiał utworzyć zarządzany prywatny punkt końcowy, do którego połączysz powiązaną usługę, którą utworzyłeś.

  1. Przejdź do karty Zarządzanie .

  2. Przejdź do sekcji Zarządzane prywatne punkty końcowe .

  3. Wybierz + Nowy w obszarze Zarządzane punkty końcowe prywatne.

    Zrzut ekranu przedstawiający przycisk Nowe zarządzane prywatne punkty końcowe.

  4. Wybierz kafelek Azure SQL Database z listy i wybierz Continue.

  5. Wprowadź nazwę wybranego serwera SQL.

  6. Wybierz pozycję Utwórz.

  7. Po kilku sekundach powinno zostać wyświetlone, że utworzony link prywatny wymaga zatwierdzenia.

  8. Wybierz utworzony prywatny punkt końcowy. Możesz zobaczyć hiperlink, który prowadzi do miejsca, gdzie możesz zatwierdzić prywatny punkt końcowy na poziomie serwera SQL.

  1. W programie SQL Server przejdź do Połączenia prywatnego punktu końcowego w sekcji Ustawienia.
  2. Zaznacz pole wyboru dla utworzonego prywatnego punktu końcowego, a następnie wybierz pozycję Zatwierdź.
  3. Dodaj opis i wybierz pozycję Tak.
  4. Wróć do sekcji Zarządzane prywatne punkty końcowe na karcie Zarządzanie w usłudze Data Factory.
  5. Wyświetlenie zatwierdzenia dla prywatnego punktu końcowego powinno zająć od jednej do dwóch minut.

Debuguj i opublikuj potok

Potok można debugować przed opublikowaniem artefaktów (połączonych usług, zestawów danych i potoku) w usłudze Data Factory lub w własnym repozytorium Azure Repos Git.

  1. Aby debugować potok, na pasku narzędzi wybierz Debuguj. Status uruchomienia potoku widać na karcie Dane wyjściowe w dolnej części okna.
  2. Po pomyślnym uruchomieniu potoku na górnym pasku narzędzi wybierz pozycję Opublikuj wszystko. Ta akcja publikuje jednostki (zestawy danych i potoki) utworzone w usłudze Data Factory.
  3. Poczekaj na wyświetlenie komunikatu Pomyślnie opublikowano. Aby wyświetlić komunikaty powiadomień, wybierz pozycję Pokaż powiadomienia w prawym górnym rogu (przycisk dzwonka).

Podsumowanie

Potok w tym przykładzie kopiuje dane z Blob Storage do SQL Database, wykorzystując prywatne punkty końcowe w zarządzanej sieci wirtualnej w Data Factory. Nauczyłeś się jak:

  • Tworzenie fabryki danych.
  • Utwórz potok danych z działaniem kopiowania.