Udostępnij przez


Jak kopiować dane przy użyciu działania kopiowania

W potoku danych można użyć aktywności Kopiowanie, aby kopiować dane między magazynami danych w chmurze. Po skopiowaniu danych możesz użyć innych działań w potoku, aby je przekształcić i przeanalizować.

Działanie Kopiowania łączy się ze źródłami danych i miejscami docelowymi, a następnie efektywnie przenosi dane między nimi. Oto jak usługa obsługuje proces kopiowania:

  1. Nawiązuje połączenie ze źródłem: tworzy bezpieczne połączenie w celu odczytu danych ze źródłowego magazynu danych.
  2. Przetwarza dane: Obsługuje serializacji/deserializacji, kompresję/dekompresację, mapowanie kolumn i konwersje typów danych na podstawie konfiguracji.
  3. Zapisuje do miejsca docelowego: transferuje przetworzone dane do docelowego magazynu danych.
  4. Zapewnia monitorowanie: śledzi operację kopiowania i udostępnia szczegółowe dzienniki i metryki na potrzeby rozwiązywania problemów i optymalizacji.

Tip

Jeśli musisz tylko skopiować dane i nie potrzebujesz przekształceń, zadanie kopiowania może być lepszym rozwiązaniem. Zadania kopiowania zapewniają uproszczone środowisko dla scenariuszy przenoszenia danych, które nie wymagają tworzenia pełnego potoku. Zobacz: Omówienie zadań kopiowania lub skorzystaj z naszej tabeli decyzyjnej, aby porównać czynność kopiowania i zadanie kopiowania.

Prerequisites

Aby rozpocząć pracę, należy spełnić następujące wymagania wstępne:

  • Konto dzierżawy usługi Microsoft Fabric z aktywną subskrypcją. Utwórz konto bezpłatnie.
  • Obszar roboczy z włączoną usługą Microsoft Fabric.

Dodawanie działania kopiowania przy użyciu asystenta kopiowania

Wykonaj następujące kroki, aby skonfigurować działanie kopiowania przy użyciu asystenta kopiowania.

Rozpoczynanie pracy z asystentem kopiowania

  1. Otwórz istniejący potok lub utwórz nowy potok.

  2. Wybierz pozycję Kopiuj dane na kanwie, aby otworzyć narzędzie Asystent kopiowania, aby rozpocząć pracę. Możesz też wybrać pozycję Użyj asystenta kopiowania z listy rozwijanej Kopiowanie danych na karcie Działania na wstążce.

    Zrzut ekranu przedstawiający opcje otwierania asystenta kopiowania.

Konfigurowanie źródła

  1. Wybierz typ źródła danych z kategorii. Jako przykład użyjesz usługi Azure Blob Storage. Wybierz Azure Blob Storage.

    Zrzut ekranu przedstawiający ekran Wybieranie źródła danych.

  2. Utwórz połączenie ze źródłem danych, wybierając pozycję Utwórz nowe połączenie.

    Zrzut ekranu przedstawiający miejsce wybrania pozycji Nowe połączenie.

    Po wybraniu pozycji Utwórz nowe połączenie wypełnij wymagane informacje o połączeniu, a następnie wybierz pozycję Dalej. Aby uzyskać szczegółowe informacje na temat tworzenia połączenia dla każdego typu źródła danych, możesz zapoznać się z każdym artykułem dotyczącym łącznika.

    Jeśli masz już połączenia, możesz wybrać pozycję Istniejące połączenie i wybrać połączenie z listy rozwijanej.

    Zrzut ekranu przedstawiający istniejące połączenie.

  3. Wybierz plik lub folder, który ma zostać skopiowany w tym kroku konfiguracji źródłowej, a następnie wybierz przycisk Dalej.

    Zrzut ekranu przedstawiający miejsce wyboru danych do skopiowania.

Konfigurowanie miejsca docelowego

  1. Wybierz typ źródła danych z kategorii. Jako przykład użyjesz usługi Azure Blob Storage. Możesz utworzyć nowe połączenie, które łączy się z nowym kontem usługi Azure Blob Storage, wykonując kroki opisane w poprzedniej sekcji lub używając istniejącego połączenia z listy rozwijanej połączenia. Funkcje Testuj połączenie i Edytuj są dostępne dla każdego wybranego połączenia.

    Zrzut ekranu przedstawiający sposób wybierania usługi Azure Blob Storage.

  2. Skonfiguruj i zamapuj dane źródłowe na miejsce docelowe. Następnie wybierz przycisk Dalej , aby zakończyć konfiguracje docelowe.

    Zrzut ekranu przedstawiający ekran Mapuj na miejsce docelowe.

    Zrzut ekranu przedstawiający nawiązywanie połączenia z miejscem docelowym danych.

    Note

    W ramach tej samej działanie Kopiuj można używać tylko jednej lokalnej bramy danych. Jeśli zarówno źródło, jak i ujście są lokalnymi źródłami danych, muszą używać tej samej bramy. Aby przenieść dane między lokalnymi źródłami danych z różnymi bramami, należy skopiować przy użyciu pierwszej bramy do pośredniego źródła chmury w ramach jednej operacji kopiowania. Następnie możesz użyć innej działanie Kopiuj, aby skopiować ją ze źródła chmury pośredniej przy użyciu drugiej bramy.

Przeglądanie i tworzenie działania kopiowania

  1. Przejrzyj ustawienia działania kopiowania w poprzednich krokach i wybierz przycisk OK , aby zakończyć. Możesz też wrócić do poprzednich kroków, aby edytować ustawienia w razie potrzeby w narzędziu.

    Zrzut ekranu przedstawiający ekran Przeglądanie i tworzenie.

Po zakończeniu działanie kopiowania zostanie dodane do kanwy potoku. Wszystkie ustawienia, w tym ustawienia zaawansowane dla tego działania kopiowania, są dostępne na kartach po jej wybraniu.

Zrzut ekranu przedstawiający aktywność kopiowania na płótnie potoku.

Teraz możesz zapisać potok za pomocą tego jednego działania kopiowania lub kontynuować projektowanie potoku.

Bezpośrednie dodawanie działania kopiowania

Wykonaj następujące kroki, aby bezpośrednio dodać działanie kopiowania.

Dodawanie działania kopiowania

  1. Otwórz istniejący potok lub utwórz nowy potok.

  2. Dodaj działanie kopiowania, wybierając pozycję Dodaj działanie> potoku działanie Kopiuj lub wybierając pozycję Kopiuj dane>Dodaj do kanwy na karcie Działania.

    Zrzut ekranu przedstawiający dwa sposoby dodawania działania kopiowania.

Konfigurowanie ustawień ogólnych na karcie Ogólne

Aby dowiedzieć się, jak skonfigurować ustawienia ogólne, zobacz Ogólne.

Konfigurowanie źródła na karcie Źródło

  1. W obszarze Połączenie wybierz istniejące połączenie lub wybierz pozycję Więcej , aby utworzyć nowe połączenie.

    Zrzut ekranu przedstawiający miejsce wybrania pozycji Nowy.

    1. Wybierz typ źródła danych w oknie podręcznym. Jako przykład użyjesz usługi Azure SQL Database. Wybierz pozycję Azure SQL Database, a następnie wybierz pozycję Kontynuuj.

      Zrzut ekranu przedstawiający sposób wybierania źródła danych.

    2. Przechodzi do strony tworzenia połączenia. Wypełnij wymagane informacje o połączeniu na panelu, a następnie wybierz pozycję Utwórz. Aby uzyskać szczegółowe informacje na temat tworzenia połączenia dla każdego typu źródła danych, możesz zapoznać się z każdym artykułem dotyczącym łącznika.

      Zrzut ekranu przedstawiający stronę Nowe połączenie.

    3. Po utworzeniu połączenia następuje powrót do strony przepływu pracy. Następnie wybierz pozycję Odśwież , aby pobrać połączenie utworzone z listy rozwijanej. Możesz również wybrać istniejące połączenie usługi Azure SQL Database bezpośrednio z listy rozwijanej, jeśli zostało już utworzone wcześniej. Funkcje Testuj połączenie i Edytuj są dostępne dla każdego wybranego połączenia. Następnie wybierz pozycję Azure SQL Database w polu Typ połączenia .

  2. Określ tabelę do skopiowania. Wybierz pozycję Podgląd danych , aby wyświetlić podgląd tabeli źródłowej. Możesz również użyć procedury kwerendy i procedury składowanej, aby odczytywać dane ze źródła.

  3. Rozwiń pozycję Zaawansowane , aby uzyskać bardziej zaawansowane ustawienia, takie jak przekroczenie limitu czasu zapytania lub partycjonowanie. (Ustawienia zaawansowane różnią się w zależności od łącznika).

Konfigurowanie miejsca docelowego na karcie Miejsce docelowe

  1. W obszarze Połączenie wybierz istniejące połączenie lub wybierz pozycję Więcej , aby utworzyć nowe połączenie. Może to być wewnętrzny magazyn danych pierwszej klasy z obszaru roboczego, takiego jak Lakehouse, lub zewnętrzne magazyny danych. W tym przykładzie używamy usługi Lakehouse.

  2. Po utworzeniu połączenia następuje powrót do strony przepływu pracy. Następnie wybierz pozycję Odśwież , aby pobrać połączenie utworzone z listy rozwijanej. Możesz także bezpośrednio z listy rozwijanej wybrać istniejące połączenie Lakehouse, jeśli wcześniej je utworzyłeś.

  3. Określ tabelę lub skonfiguruj ścieżkę pliku, aby zdefiniować plik lub folder jako miejsce docelowe. W tym miejscu wybierz pozycję Tabele i określ tabelę do zapisu danych.

  4. Rozwiń pozycję Zaawansowane , aby uzyskać bardziej zaawansowane ustawienia, takie jak maksymalna liczba wierszy na plik lub akcja tabeli. (Ustawienia zaawansowane różnią się w zależności od łącznika).

Teraz możesz albo zapisać kanał za pomocą tego działania kopiowania, albo kontynuować projektowanie swojego kanału.

Konfigurowanie mapowań na karcie mapowania

Jeśli używany łącznik obsługuje mapowanie, możesz przejść do karty Mapowanie , aby skonfigurować mapowanie.

  1. Wybierz pozycję Importuj schematy , aby zaimportować schemat danych.

    Zrzut ekranu przedstawiający ustawienia mapowania 1.

  2. Widać, jak pojawia się automatyczne mapowanie. Określ kolumnę Źródło i kolumnę Docelową . Jeśli tworzysz nową tabelę w miejscu docelowym, możesz dostosować nazwę kolumny Destination tutaj. Jeśli chcesz zapisać dane w istniejącej tabeli docelowej, nie możesz zmodyfikować istniejącej nazwy kolumny Destination . Można również wyświetlić kolumny Typ źródła i miejsca docelowego.

    Zrzut ekranu przedstawiający ustawienia mapowania 2.

Możesz również wybrać pozycję + Nowe mapowanie , aby dodać nowe mapowanie, wybrać pozycję Wyczyść , aby wyczyścić wszystkie ustawienia mapowania, a następnie wybrać pozycję Resetuj , aby zresetować wszystkie kolumny źródłowe mapowania.

Aby uzyskać więcej informacji na temat mapowania typów danych, zobacz Mapowanie typów danych w działaniu kopiowania.

Konfigurowanie innych ustawień na karcie Ustawienia

Karta Ustawienia zawiera ustawienia wydajności, przemieszczania itd.

Zrzut ekranu przedstawiający kartę Ustawienia.

Aby zapoznać się z opisem każdego ustawienia, zobacz poniższą tabelę.

Setting Description Właściwość skryptu JSON
Optymalizacja inteligentnej przepływności Określ, aby zoptymalizować przepływność. Możesz wybrać jedną z opcji:
Auto
Standardowa
Zrównoważone
Maksimum

Po wybraniu opcji Automatycznie optymalne ustawienie jest stosowane dynamicznie na podstawie pary źródłowej i wzorca danych. Możesz również dostosować przepływność, a wartość niestandardowa może wynosić od 2 do 256, a wyższa wartość oznacza więcej zysków.
dataIntegrationUnits
Stopień równoległości kopiowania Określ stopień równoległości używany przez ładowanie danych. parallelCopies
Adaptacyjne dostrajanie wydajności (preivew) Określ, czy usługa może stosować optymalizacje wydajności i dostrajać zgodnie z konfiguracją niestandardową. adaptacyjne dostrajanie wydajności
Weryfikacja spójności danych Jeśli ustawisz true dla tej właściwości, podczas kopiowania plików binarnych działanie kopiowania sprawdzi rozmiar pliku, lastModifiedDate i sumę kontrolną dla każdego pliku binarnego skopiowanego ze źródła do magazynu docelowego, aby zapewnić spójność danych między magazynem źródłowym i docelowym. Podczas kopiowania danych tabelarycznych działanie kopiowania sprawdzi łączną liczbę wierszy po zakończeniu zadania, zapewniając, że łączna liczba wierszy odczytanych ze źródła jest taka sama jak liczba wierszy skopiowanych do miejsca docelowego oraz liczba pominiętych wierszy niezgodnych. Należy pamiętać, że wydajność kopiowania ma wpływ na włączenie tej opcji. validateDataConsistency
Odporność na uszkodzenia Po wybraniu tej opcji można zignorować niektóre błędy występujące w trakcie procesu kopiowania. Na przykład niezgodne wiersze między magazynem źródłowym i docelowym, plik usuwany podczas przenoszenia danych itp. • włączPominięcieNiekompatybilnegoWiersza
• skipErrorFile:
   fileMissing
   fileForbidden
   invalidFileName
Włączanie rejestrowania Po wybraniu tej opcji można rejestrować skopiowane pliki, pomijane pliki i wiersze. /
Włączanie przemieszczania Określ, czy chcesz skopiować dane za pośrednictwem tymczasowego magazynu przejściowego. Włącz etapowanie tylko dla przydatnych scenariuszy. enableStaging
Dla obszaru roboczego
Workspace Określ, aby używać wbudowanego magazynu przejściowego. Upewnij się, że użytkownik, który ostatnio modyfikował potok, ma przypisaną w obszarze roboczym rolę co najmniej Współpracownik. /
Dla zewnętrznego
Połączenie konta przejściowego Określ połączenie usługi Azure Blob Storage lub Azure Data Lake Storage Gen2, które odnosi się do wystąpienia usługi Storage używanego jako tymczasowy magazyn przejściowy. Utwórz połączenie przejściowe, jeśli go nie masz. połączenie (w obszarze externalReferences)
Ścieżka magazynu Określ ścieżkę, która ma zawierać dane etapowe. Jeśli nie podasz ścieżki, usługa utworzy kontener do przechowywania danych tymczasowych. Określ ścieżkę tylko wtedy, gdy używasz usługi Storage z sygnaturą dostępu współdzielonego lub wymagasz, aby dane tymczasowe znajdowały się w określonej lokalizacji. ścieżka
Włącz kompresję Określa, czy dane mają być skompresowane przed skopiowanie ich do miejsca docelowego. To ustawienie zmniejsza ilość przesyłanych danych. enableCompression
Preserve Określ, czy zachować metadane/listy ACL podczas kopiowania danych. preserve

Note

Jeśli używasz kopiowania etapowego z włączoną kompresją, uwierzytelnianie jednostki usługi na potrzeby przejściowego połączenia obiektu blob nie jest obsługiwane.

Note

Czas przygotowania obszaru roboczego wygasa po 60 minutach. W przypadku długotrwałych zadań zaleca się używanie magazynu zewnętrznego do etapów pośrednich.

Konfigurowanie parametrów w działaniu kopiowania

Parametry mogą służyć do kontrolowania zachowania potoku i jego działań. Możesz użyć opcji Dodaj zawartość dynamiczną, aby określić parametry właściwości działania kopiowania. Przyjrzyjmy się określeniu usługi Lakehouse/Data Warehouse jako przykładu, aby zobaczyć, jak z niego korzystać.

  1. W źródle lub miejscu docelowym wybierz pozycję Użyj zawartości dynamicznej na liście rozwijanej Połączenie.

  2. W okienku podręcznym Dodaj zawartość dynamiczną w obszarze Parametry wybierz pozycję +.

    Zrzut ekranu przedstawiający stronę Dodawanie zawartości dynamicznej.

  3. Określ nazwę parametru i nadaj mu wartość domyślną, jeśli chcesz, lub możesz określić wartość parametru po wyzwoleniu w potoku.

    Zrzut ekranu przedstawiający tworzenie nowego parametru.

    Wartość parametru powinna być identyfikatorem połączenia lakehouse/Data Warehouse. Aby go uzyskać, otwórz pozycję Zarządzaj połączeniami i bramami, wybierz połączenie Lakehouse/Data Warehouse, którego chcesz użyć, a następnie otwórz pozycję Ustawienia , aby uzyskać identyfikator połączenia. Jeśli chcesz utworzyć nowe połączenie, możesz wybrać pozycję + Nowy na tej stronie lub przejść do strony z listą rozwijaną Połączenie .

  4. Wybierz pozycję Zapisz, aby wrócić do okienka Dodawanie zawartości dynamicznej. Następnie wybierz parametr, aby był wyświetlany w polu wyrażenia. Następnie wybierz opcję OK. Wrócisz do strony potoku i zobaczysz, że wyrażenie parametru jest określone po połączeniu.

    Zrzut ekranu przedstawiający wybieranie parametru.

  5. Określ identyfikator usługi Lakehouse lub Data Warehouse. Aby znaleźć identyfikator, przejdź do usługi Lakehouse lub Data Warehouse w obszarze roboczym. Identyfikator jest wyświetlany w adresie URL po /lakehouses/ lub /datawarehouses/.

    • Identyfikator usługi Lakehouse:

      Zrzut ekranu przedstawiający identyfikator obiektu Lakehouse.

    • Identyfikator magazynu:

      Zrzut ekranu przedstawiający identyfikator obiektu magazynu danych.

  6. Określ parametry połączenia SQL dla magazynu danych.