Udostępnij za pośrednictwem


Konfigurowanie usługi Lakehouse w działaniu kopiowania

W tym artykule opisano sposób używania działania kopiowania w potoku danych do kopiowania danych z i do usługi Fabric Lakehouse. Domyślnie dane są zapisywane w tabeli Lakehouse Table w kolejności wirtualnej i można przejść do pozycji Optymalizacja tabel usługi Delta Lake i Kolejność V, aby uzyskać więcej informacji.

Obsługiwany format

Usługa Lakehouse obsługuje następujące formaty plików. Zapoznaj się z każdym artykułem, aby zapoznać się z ustawieniami opartymi na formacie.

Obsługiwana konfiguracja

W przypadku konfiguracji każdej karty w działaniu kopiowania przejdź odpowiednio do poniższych sekcji.

Ogólne

W obszarze Konfiguracja karty Ogólne przejdź do pozycji Ogólne.

Źródło

Następujące właściwości są obsługiwane dla usługi Lakehouse na karcie Źródło działania kopiowania.

Zrzut ekranu przedstawiający kartę źródłową i listę właściwości.

Wymaganenastępujące właściwości:

  • Typ magazynu danych: wybierz pozycję Obszar roboczy.

  • Typ magazynu danych obszaru roboczego: wybierz pozycję Lakehouse z listy typów magazynu danych.

  • Lakehouse: wybierz istniejącą usługę Lakehouse z obszaru roboczego. Jeśli żadna z nich nie istnieje, utwórz nową usługę Lakehouse, wybierając pozycję Nowy. Jeśli używasz opcji Dodaj zawartość dynamiczną, aby określić usługę Lakehouse, dodaj parametr i określ identyfikator obiektu Lakehouse jako wartość parametru. Aby uzyskać identyfikator obiektu lakehouse, otwórz usługę Lakehouse w obszarze roboczym, a identyfikator znajduje się po /lakehouses/w adresie URL.

    Zrzut ekranu przedstawiający identyfikator obiektu Lakehouse.

  • Folder główny: wybierz pozycję Tabele lub pliki, które wskazują wirtualny widok obszaru zarządzanego lub niezarządzanego w jeziorze. Aby uzyskać więcej informacji, zapoznaj się z wprowadzeniem do usługi Lakehouse.

    • W przypadku wybrania pozycji Tabele:

      • Nazwa tabeli: wybierz istniejącą tabelę z listy tabel lub określ nazwę tabeli jako źródło.
      • W obszarze Zaawansowane można określić następujące pola:
        • Sygnatura czasowa: określ, aby wykonać zapytanie dotyczące starszej migawki według znacznika czasu.
        • Wersja: określ, aby wykonać zapytanie dotyczące starszej migawki według wersji.
        • Dodatkowe kolumny: Dodaj dodatkowe kolumny danych do ścieżki względnej lub wartości statycznej plików źródłowych. Wyrażenie jest obsługiwane w przypadku tych ostatnich.

      Obsługiwany jest czytnik w wersji 1. Odpowiednie obsługiwane funkcje usługi Delta Lake można znaleźć w tym artykule.

    • W przypadku wybrania pozycji Pliki:

      • Typ ścieżki pliku: możesz wybrać ścieżkę pliku, ścieżkę pliku z symbolem wieloznacznymi lub listę plików jako typ ścieżki pliku. Poniższa lista zawiera opis konfiguracji każdego ustawienia:

        Zrzut ekranu przedstawiający ścieżkę pliku.

        • Ścieżka pliku: wybierz pozycję Przeglądaj , aby wybrać plik, który chcesz skopiować, lub wypełnij ścieżkę ręcznie.

        • Ścieżka pliku z symbolami wieloznacznymi: określ folder lub ścieżkę pliku z symbolami wieloznacznymi w danym obszarze niezarządzanych usługi Lakehouse (w obszarze Pliki), aby filtrować foldery źródłowe lub pliki. Dozwolone symbole wieloznaczne to: * (pasuje do zera lub większej liczby znaków) i ? (pasuje do zera lub pojedynczego znaku). Użyj ^ polecenia , aby uniknąć, jeśli nazwa folderu lub pliku ma symbol wieloznaczny lub znak ucieczki wewnątrz.

          • Ścieżka folderu z symbolami wieloznacznymi: ścieżka do folderu w ramach danego kontenera. Jeśli chcesz użyć symbolu wieloznakowego do filtrowania folderu, pomiń to ustawienie i określ te informacje w ustawieniach źródła działań.

          • Nazwa pliku z symbolami wieloznacznymi: nazwa pliku w obszarze niezarządzanych usług Lakehouse (w obszarze Pliki) i ścieżka folderu.

            Zrzut ekranu przedstawiający ścieżkę pliku z symbolami wieloznacznymi.

        • Lista plików: wskazuje, aby skopiować dany zestaw plików.

          • Ścieżka folderu: wskazuje folder zawierający pliki, które chcesz skopiować.
          • Ścieżka do listy plików: wskazuje plik tekstowy zawierający listę plików, które chcesz skopiować, jeden plik na wiersz, czyli ścieżkę względną do skonfigurowanej ścieżki pliku.

          Zrzut ekranu przedstawiający ścieżkę do listy plików.

      • Rekursywnie: wskazuje, czy dane są odczytywane rekursywnie z podfolderów, czy tylko z określonego folderu. Jeśli to ustawienie jest włączone, wszystkie pliki w folderze wejściowym i jego podfolderach są przetwarzane rekursywnie. Ta właściwość nie ma zastosowania podczas konfigurowania typu ścieżki pliku jako Listy plików.

      • Format pliku: wybierz format pliku z listy rozwijanej. Wybierz przycisk Ustawienia, aby skonfigurować format pliku. Aby uzyskać szczegółowe informacje, zobacz artykuły w obsługiwanym formacie .

      • W obszarze Zaawansowane można określić następujące pola:

        • Filtruj według ostatniej modyfikacji: pliki są filtrowane na podstawie dat ostatniej modyfikacji. Ta właściwość nie ma zastosowania podczas konfigurowania typu ścieżki pliku jako Listy plików.
          • Godzina rozpoczęcia: pliki są wybierane, jeśli ich czas ostatniej modyfikacji jest większy lub równy skonfigurowanemu czasowi.
          • Godzina zakończenia: pliki są wybierane, jeśli czas ostatniej modyfikacji jest krótszy niż skonfigurowany czas.
        • Włącz odnajdywanie partycji: w przypadku plików podzielonych na partycje określ, czy analizować partycje ze ścieżki pliku i dodać je jako dodatkowe kolumny źródłowe.
          • Ścieżka główna partycji: po włączeniu odnajdywania partycji określ bezwzględną ścieżkę główną, aby odczytywać podzielone na partycje foldery jako kolumny danych.
        • Maksymalna liczba połączeń współbieżnych: wskazuje górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Określ wartość tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne.

Element docelowy

Następujące właściwości są obsługiwane dla usługi Lakehouse na karcie Miejsce docelowe działania kopiowania.

Zrzut ekranu przedstawiający kartę docelową.

Wymaganenastępujące właściwości:

  • Typ magazynu danych: wybierz pozycję Obszar roboczy.

  • Typ magazynu danych obszaru roboczego: wybierz pozycję Lakehouse z listy typów magazynu danych.

  • Lakehouse: wybierz istniejącą usługę Lakehouse z obszaru roboczego. Jeśli żadna z nich nie istnieje, utwórz nową usługę Lakehouse, wybierając pozycję Nowy. Jeśli używasz opcji Dodaj zawartość dynamiczną, aby określić usługę Lakehouse, dodaj parametr i określ identyfikator obiektu Lakehouse jako wartość parametru. Aby uzyskać identyfikator obiektu lakehouse, otwórz usługę Lakehouse w obszarze roboczym, a identyfikator znajduje się po /lakehouses/w adresie URL.

    Zrzut ekranu przedstawiający identyfikator obiektu Lakehouse.

  • Folder główny: wybierz pozycję Tabele lub pliki, które wskazują wirtualny widok obszaru zarządzanego lub niezarządzanego w jeziorze. Aby uzyskać więcej informacji, zapoznaj się z wprowadzeniem do usługi Lakehouse.

    • W przypadku wybrania pozycji Tabele:

      • Nazwa tabeli: wybierz istniejącą tabelę z listy tabel lub określ nazwę tabeli jako miejsce docelowe.

        Zrzut ekranu przedstawiający nazwę tabeli.

      • W obszarze Zaawansowane można określić następujące pola:

        • Maksymalna liczba wierszy na plik: określ maksymalną liczbę wierszy na plik podczas zapisywania danych w usłudze Lakehouse.

        • Akcje tabeli: określ operację dla wybranej tabeli.

          • Dołączanie: Dołączanie nowych wartości do istniejącej tabeli.

            • Włącz partycję: ten wybór umożliwia tworzenie partycji w strukturze folderów na podstawie jednej lub wielu kolumn. Każda unikatowa wartość kolumny (para) to nowa partycja. Na przykład "year=2000/month=01/file".
              • Nazwa kolumny partycji: wybierz z kolumn docelowych w mapowaniu schematów podczas dołączania danych do nowej tabeli. Po dołączeniu danych do istniejącej tabeli, która ma już partycje, kolumny partycji pochodzą z istniejącej tabeli automatycznie. Obsługiwane typy danych to ciąg, liczba całkowita, wartość logiczna i data/godzina. Format uwzględnia ustawienia konwersji typów na karcie Mapowanie .
          • Zastąp: zastąp istniejące dane i schemat w tabeli przy użyciu nowych wartości. Jeśli ta operacja jest zaznaczona, możesz włączyć partycję w tabeli docelowej:

            • Włącz partycję: ten wybór umożliwia tworzenie partycji w strukturze folderów na podstawie jednej lub wielu kolumn. Każda unikatowa wartość kolumny (para) to nowa partycja. Na przykład "year=2000/month=01/file".
              • Nazwa kolumny partycji: wybierz z kolumn docelowych w mapowaniu schematów. Obsługiwane typy danych to ciąg, liczba całkowita, wartość logiczna i data/godzina. Format uwzględnia ustawienia konwersji typów na karcie Mapowanie .

            Obsługuje on podróże czasowe usługi Delta Lake. Tabela zastąpiona zawiera dzienniki różnicowe dla poprzednich wersji, do których można uzyskać dostęp w usłudze Lakehouse. Możesz również skopiować poprzednią tabelę wersji z usługi Lakehouse, określając wersję w źródle działania kopiowania.

        • Maksymalna liczba połączeń współbieżnych: górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Określ wartość tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne.

      Składnik zapisywania w wersji 2 jest obsługiwany. Odpowiednie obsługiwane funkcje usługi Delta Lake można znaleźć w tym artykule.

    • W przypadku wybrania pozycji Pliki:

      • Ścieżka pliku: wybierz pozycję Przeglądaj , aby wybrać plik, który chcesz skopiować, lub wypełnij ścieżkę ręcznie.

        Zrzut ekranu przedstawiający ścieżkę plików w miejscu docelowym.

      • Format pliku: wybierz format pliku z listy rozwijanej. Wybierz Ustawienia, aby skonfigurować format pliku. Aby uzyskać szczegółowe informacje, zobacz artykuły w obsługiwanym formacie .

      • W obszarze Zaawansowane można określić następujące pola:

        • Zachowanie kopiowania: definiuje zachowanie kopiowania, gdy źródłem są pliki z magazynu danych opartego na plikach. Możesz wybrać opcję Dodaj zawartość dynamiczną, Brak, Hierarchia spłaszczania lub Zachowaj hierarchię jako zachowanie kopiowania . Konfiguracja każdego ustawienia to:

          • Dodaj zawartość dynamiczną: aby określić wyrażenie dla wartości właściwości, wybierz pozycję Dodaj zawartość dynamiczną. To pole otwiera konstruktora wyrażeń, w którym można tworzyć wyrażenia z obsługiwanych zmiennych systemowych, danych wyjściowych działań, funkcji i zmiennych lub parametrów określonych przez użytkownika. Aby uzyskać więcej informacji na temat języka wyrażeń, zobacz Wyrażenia i funkcje.

          • Brak: wybierz ten wybór, aby nie używać żadnego zachowania kopiowania.

          • Hierarchia spłaszczana: wszystkie pliki z folderu źródłowego znajdują się na pierwszym poziomie folderu docelowego. Pliki docelowe mają automatycznie wygenerowane nazwy.

          • Zachowaj hierarchię: zachowuje hierarchię plików w folderze docelowym. Ścieżka względna pliku źródłowego do folderu źródłowego jest identyczna ze ścieżką względną pliku docelowego do folderu docelowego.

            Zrzut ekranu przedstawiający zachowanie kopiowania.

        • Maksymalna liczba połączeń współbieżnych: górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Określ wartość tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne.

        • Rozmiar bloku (MB): określ rozmiar bloku w MB podczas zapisywania danych w usłudze Lakehouse. Dozwolona wartość wynosi od 4 MB do 100 MB.

        • Metadane: ustaw niestandardowe metadane podczas kopiowania do docelowego magazynu danych. Każdy obiekt w tablicy metadata reprezentuje dodatkową kolumnę. Element name definiuje nazwę klucza metadanych i value wskazuje wartość danych tego klucza. Jeśli jest używana funkcja zachowania atrybutów, określone metadane będą union/overwrite z metadanymi pliku źródłowego. Dozwolone wartości danych to:

          • $$LASTMODIFIED: zmienna zarezerwowana wskazuje czas ostatniej modyfikacji plików źródłowych. Zastosuj do źródła opartego na plikach tylko w formacie binarnym.

          • Wyrażenie

          • Wartość statyczna

            Zrzut ekranu przedstawiający metadane.

Mapowanie

W przypadku konfiguracji karty Mapowanie , jeśli nie zastosujesz tabeli Lakehouse jako docelowego magazynu danych, przejdź do pozycji Mapowanie.

Jeśli zastosujesz tabelę Lakehouse jako docelowy magazyn danych, z wyjątkiem konfiguracji w obszarze Mapowanie, możesz edytować typ kolumn docelowych. Po wybraniu pozycji Importuj schematy można określić typ kolumny w miejscu docelowym.

Na przykład typ kolumny PersonID w źródle jest int i można zmienić go na typ ciągu podczas mapowania na kolumnę docelową.

Zrzut ekranu przedstawiający typ kolumny docelowej mapowania.

Uwaga

Edytowanie typu docelowego nie jest obecnie obsługiwane, gdy źródło jest typem dziesiętny.

Jeśli wybierzesz plik binarny jako format pliku, mapowanie nie jest obsługiwane.

Ustawienia

Aby uzyskać konfigurację karty Ustawienia, przejdź do Ustawienia.

Podsumowanie tabeli

Poniższe tabele zawierają więcej informacji na temat działania kopiowania w usłudze Lakehouse.

Informacje źródłowe

Nazwa/nazwisko Opis Wartość Wymagania Właściwość skryptu JSON
Typ magazynu danych Typ magazynu danych. Workspace Tak /
Typ magazynu danych obszaru roboczego Sekcja do wybrania typu magazynu danych obszaru roboczego. Lakehouse Tak type
Lakehouse Lakehouse, którego używasz jako źródła. <twoja usługa Lakehouse> Tak workspaceId
artifactId
Folder główny Typ folderu głównego. * Tabele
* Pliki
Nie. Rootfolder:
Tabela lub pliki
Nazwa tabeli Nazwa tabeli do odczytywania danych. <nazwa tabeli> Tak po wybraniu pozycji Tabele w folderze głównym Tabeli
(w obszarze typeProperties ->source ->typeProperties)
Sygnatura czasowa Sygnatura czasowa do wykonywania zapytań względem starszej migawki. <Sygnatury czasowej> Nie. timestampAsOf
Wersja Wersja do wykonywania zapytań względem starszej migawki. <version> Nie. versionAsOf
Dodatkowe kolumny Dodatkowe kolumny danych do przechowywania ścieżki względnej lub wartości statycznej plików źródłowych. Wyrażenie jest obsługiwane w przypadku tych ostatnich. *Nazwa
*Wartość
Nie. additionalColumns:
*Nazwa
*Wartość
Typ ścieżki pliku Typ używanej ścieżki pliku. * Ścieżka pliku
* Ścieżka pliku z symbolami wieloznacznymi
* Lista plików
Tak /
Ścieżka pliku Skopiuj ze ścieżki do folderu/pliku w źródłowym magazynie danych. Zastosuj podczas wybierania ścieżki pliku w polu Typ ścieżki pliku. <ścieżka pliku> Tak podczas wybierania ścieżki pliku *Folderpath
*Pod nazwą
Ścieżki z symbolami wieloznacznymi Ścieżka folderu z symbolami wieloznacznymi w magazynie danych źródłowych skonfigurowanym do filtrowania folderów źródłowych. Zastosuj podczas wybierania ścieżki pliku symbolu wieloznakowego w polu Typ ścieżki pliku. <ścieżki wieloznaczne> Tak podczas wybierania ścieżki pliku z symbolami wieloznacznymi * symbol wieloznacznyFolderPath
* symbol wieloznacznyFileName
Ścieżka folderu Wskazuje folder zawierający pliki, które chcesz skopiować. Zastosuj podczas wybierania pozycji Lista plików w typie ścieżki pliku. <ścieżka folderu> Nie. folderPath
Ścieżka do listy plików Wskazuje, aby skopiować dany zestaw plików. Wskaż plik tekstowy zawierający listę plików, które chcesz skopiować, jeden plik na wiersz, który jest ścieżką względną do skonfigurowanej ścieżki. Zastosuj podczas wybierania pozycji Lista plików w typie ścieżki pliku. <ścieżka do listy plików> Nie. fileListPath
Rekursywnie Przetwarzaj wszystkie pliki w folderze wejściowym i jego podfolderach rekursywnie lub tylko te w wybranym folderze. To ustawienie jest wyłączone po wybraniu pojedynczego pliku. zaznacz lub usuń zaznaczenie Nie. Cykliczne:
prawda lub fałsz
Format pliku Format używanego pliku. <format pliku> Tak type (w obszarze formatSettings):
DelimitedTextRead Ustawienia
Filtruj według ostatniej modyfikacji Pliki o ostatniej modyfikacji w zakresie [Godzina rozpoczęcia, Godzina zakończenia) będą filtrowane pod kątem dalszego przetwarzania.

Czas jest stosowany do strefy czasowej UTC w formacie yyyy-mm-ddThh:mm:ss.fffZ.

Tę właściwość można pominąć, co oznacza, że nie zastosowano filtru atrybutu pliku. Ta właściwość nie ma zastosowania podczas konfigurowania typu ścieżki pliku jako Listy plików.
* Godzina rozpoczęcia
* Godzina zakończenia
Nie. modifiedDatetimeStart
modifiedDatetimeEnd
Włączanie odnajdywania partycji Czy przeanalizować partycje ze ścieżki pliku i dodać je jako dodatkowe kolumny źródłowe. Wybrane lub niezaznaczone Nie. enablePartitionDiscovery:
true lub false (wartość domyślna)
Ścieżka główna partycji Ścieżka główna partycji bezwzględnej do odczytu folderów podzielonych na partycje jako kolumny danych. <ścieżka główna partycji> Nie. partitionRootPath
Maksymalna liczba połączeń współbieżnych Górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Wartość jest potrzebna tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne. <maksymalna liczba połączeń współbieżnych> Nie. maxConcurrent Połączenie ions

Informacje o lokalizacji docelowej

Nazwa/nazwisko Opis Wartość Wymagania Właściwość skryptu JSON
Typ magazynu danych Typ magazynu danych. Workspace Tak /
Typ magazynu danych obszaru roboczego Sekcja do wybrania typu magazynu danych obszaru roboczego. Lakehouse Tak type
Lakehouse Lakehouse, którego używasz jako miejsca docelowego. <twoja usługa Lakehouse> Tak workspaceId
artifactId
Folder główny Typ folderu głównego. * Tabele
* Pliki
Tak Rootfolder:
Tabela lub pliki
Nazwa tabeli Nazwa tabeli, do której chcesz zapisywać dane. <nazwa tabeli> Tak po wybraniu pozycji Tabele w folderze głównym Tabeli
(w obszarze typeProperties ->sink ->typeProperties)
Maksymalna liczba wierszy na plik Podczas zapisywania danych w folderze można wybrać zapisywanie w wielu plikach i określić maksymalną liczbę wierszy na plik. <maksymalna liczba wierszy na flie> Nie. maxRowsPerFile
Akcja tabeli Dołącz nowe wartości do istniejącej tabeli lub zastąp istniejące dane i schemat w tabeli przy użyciu nowych wartości. * Dołączanie
* Zastępowanie
Nie. tableActionOption:
Dołączanie lub zastępowanie
Maksymalna liczba połączeń współbieżnych Górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Określ wartość tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne. <maksymalna liczba połączeń współbieżnych> Nie. maxConcurrent Połączenie ions
Ścieżka pliku Zapisz dane w ścieżce do folderu/pliku w docelowym magazynie danych. <ścieżka pliku> Nie. *Folderpath
*Pod nazwą
Format pliku Format używanego pliku. <format pliku> Tak type (w obszarze formatSettings):
DelimitedTextWrite Ustawienia
Zachowanie kopiowania Zachowanie kopiowania zdefiniowane, gdy źródłem są pliki z magazynu danych opartego na plikach. * Dodawanie zawartości dynamicznej
* Brak
* Hierarchia spłaszczana
* Zachowaj hierarchię
Nie. copyBehavior:


* FlattenHierarchy
* PreserveHierarchy
Rozmiar bloku (MB) Rozmiar bloku w MB używany do zapisywania danych w usłudze Lakehouse. Dozwolona wartość wynosi od 4 MB do 100 MB. <rozmiar bloku> Nie. blockSizeInMB
Metadane Niestandardowy zestaw metadanych podczas kopiowania do miejsca docelowego. * $$LASTMODIFIED
*Wyrażenie
* Wartość statyczna
Nie. metadane