Udostępnij za pośrednictwem


Zbiorcze kopiowanie z bazy danych do usługi Azure Data Explorer przy użyciu szablonu usługi Azure Data Factory

Azure Data Explorer to szybka, w pełni zarządzana usługa analizy danych. Oferuje ona analizę w czasie rzeczywistym na dużych ilościach danych przesyłanych strumieniowo z wielu źródeł, takich jak aplikacje, witryny internetowe i urządzenia IoT.

Aby skopiować dane z bazy danych w programie Oracle Server, Netezza, Teradata lub SQL Server do usługi Azure Data Explorer, musisz załadować ogromne ilości danych z wielu tabel. Zazwyczaj dane muszą być partycjonowane w każdej tabeli, aby można było ładować wiersze z wieloma wątkami równolegle z jedną tabelą. W tym artykule opisano szablon do użycia w tych scenariuszach.

Szablony usługi Azure Data Factory są wstępnie zdefiniowanymi potokami usługi Data Factory. Te szablony mogą pomóc w szybkim rozpoczęciu pracy z usługą Data Factory i skróceniu czasu opracowywania projektów integracji danych.

Tworzenie kopii zbiorczej z bazy danych do szablonu usługi Azure Data Explorer przy użyciu działań Lookup i ForEach . W celu szybszego kopiowania danych można użyć szablonu, aby utworzyć wiele potoków na bazę danych lub tabelę.

Ważne

Pamiętaj, aby użyć narzędzia odpowiedniego dla ilości danych, które chcesz skopiować.

  • Użyj szablonu Kopiowanie zbiorcze z bazy danych do usługi Azure Data Explorer , aby skopiować duże ilości danych z baz danych, takich jak sql server i Google BigQuery do usługi Azure Data Explorer.
  • Za pomocą narzędzia Data Factory Copy Data Tool skopiuj kilka tabel z małymi lub umiarkowanymi ilościami danych do usługi Azure Data Explorer.

Wymagania wstępne

Tworzenie tabeli ControlTableDataset

ControlTableDataset wskazuje, jakie dane zostaną skopiowane ze źródła do miejsca docelowego w potoku. Liczba wierszy wskazuje łączną liczbę potoków potrzebnych do skopiowania danych. Należy zdefiniować element ControlTableDataset jako część źródłowej bazy danych.

Przykład formatu tabeli źródłowej programu SQL Server jest pokazany w następującym kodzie:

CREATE TABLE control_table (
PartitionId int,
SourceQuery varchar(255),
ADXTableName varchar(255)
);

Elementy kodu zostały opisane w poniższej tabeli:

Właściwości opis Przykład
PartitionId Kolejność kopiowania 1
Zapytanie źródłowe Zapytanie wskazujące, które dane zostaną skopiowane podczas wykonywania potoku
select * from table where lastmodifiedtime LastModifytime >= ''2015-01-01 00:00:00''>
ADXTableName Nazwa tabeli docelowej MyAdxTable

Jeśli zestaw ControlTableDataset ma inny format, utwórz porównywalny zestaw ControlTableDataset dla formatu.

Używanie szablonu kopiowania zbiorczego z bazy danych do usługi Azure Data Explorer

  1. W okienku Wprowadzenie wybierz pozycję Utwórz potok z szablonu , aby otworzyć okienko Galeria szablonów.

    Okienko

  2. Wybierz szablon Kopiowanie zbiorcze z bazy danych do usługi Azure Data Explorer.

    Szablon

  3. W okienku Kopiowanie zbiorcze z bazy danych do usługi Azure Data Explorer w obszarze Dane wejściowe użytkownika określ zestawy danych, wykonując następujące czynności:

    a. Z listy rozwijanej ControlTableDataset wybierz połączoną usługę do tabeli kontrolnej, która wskazuje, jakie dane są kopiowane ze źródła do miejsca docelowego i gdzie zostaną umieszczone w miejscu docelowym.

    b. Z listy rozwijanej SourceDataset wybierz połączoną usługę ze źródłową bazą danych.

    c. Z listy rozwijanej AzureDataExplorerTable wybierz tabelę Azure Data Explorer. Jeśli zestaw danych nie istnieje, utwórz połączoną usługę Azure Data Explorer, aby dodać zestaw danych.

    d. Wybierz Użyj tego szablonu.

    Okienko

  4. Wybierz obszar na kanwie poza działaniami, aby uzyskać dostęp do potoku szablonu. Wybierz kartę Parametry , aby wprowadzić parametry tabeli, w tym nazwę (nazwę tabeli sterującej) i wartość domyślną (nazwy kolumn).

    Parametry potoku.

  5. W obszarze Odnośnik wybierz pozycję GetPartitionList , aby wyświetlić ustawienia domyślne. Zapytanie jest tworzone automatycznie.

  6. Wybierz działanie Polecenie, ForEachPartition, wybierz kartę Ustawienia , a następnie wykonaj następujące czynności:

    a. W polu Liczba partii wprowadź liczbę z zakresu od 1 do 50. Ten wybór określa liczbę potoków uruchamianych równolegle do momentu osiągnięcia liczby wierszy ControlTableDataset .

    b. Aby upewnić się, że partie potoku działają równolegle, nie zaznaczaj pola wyboru Sekwencyjne.

    Ustawienia forEachPartition.

    Napiwek

    Najlepszym rozwiązaniem jest równoległe uruchamianie wielu potoków w celu szybszego kopiowania danych. Aby zwiększyć wydajność, należy podzielić dane w tabeli źródłowej i przydzielić jedną partycję na potok zgodnie z datą i tabelą.

  7. Wybierz pozycję Zweryfikuj wszystko , aby zweryfikować potok usługi Azure Data Factory, a następnie wyświetl wynik w okienku Dane wyjściowe weryfikacji potoku.

    Weryfikowanie potoków szablonów.

  8. W razie potrzeby wybierz pozycję Debuguj, a następnie wybierz pozycję Dodaj wyzwalacz , aby uruchomić potok.

    Przyciski

Teraz możesz użyć szablonu, aby efektywnie kopiować duże ilości danych z baz danych i tabel.