Jak skonfigurować usługę Lakehouse w działaniu kopiowania

W tym artykule opisano sposób używania działania kopiowania w potoku danych do kopiowania danych z i do usługi Fabric Lakehouse.

Ważne

Usługa Microsoft Fabric jest obecnie dostępna w wersji zapoznawczej. Te informacje odnoszą się do produktu w wersji wstępnej, który może zostać znacząco zmodyfikowany przed jego wydaniem. Firma Microsoft nie udziela żadnych gwarancji, wyrażonych ani domniemanych, w odniesieniu do podanych tutaj informacji. Zapoznaj się z dokumentacją usługi Azure Data Factory dotyczącą usługi na platformie Azure.

Obsługiwany format

Usługa Lakehouse obsługuje następujące formaty plików. Zapoznaj się z każdym artykułem, aby zapoznać się z ustawieniami opartymi na formacie.

Obsługiwana konfiguracja

W przypadku konfiguracji każdej karty w działaniu kopiowania przejdź odpowiednio do poniższych sekcji.

Ogólne

W obszarze Konfiguracja karty Ogólne przejdź do pozycji Ogólne.

Lokalizacja źródłowa

Następujące właściwości są obsługiwane dla usługi Lakehouse na karcie Źródło działania kopiowania.

Screenshot showing source tab and the list of properties.

Wymaganenastępujące właściwości:

  • Typ magazynu danych: wybierz pozycję Obszar roboczy.

  • Typ magazynu danych obszaru roboczego: wybierz pozycję Lakehouse z listy typów magazynu danych.

  • Lakehouse: wybierz istniejącą usługę Lakehouse z obszaru roboczego. Jeśli żadna z nich nie istnieje, utwórz nową usługę Lakehouse, wybierając pozycję Nowy. Jeśli używasz opcji Dodaj zawartość dynamiczną, aby określić usługę Lakehouse, dodaj parametr i określ identyfikator obiektu Lakehouse jako wartość parametru. Aby uzyskać identyfikator obiektu lakehouse, otwórz usługę Lakehouse w obszarze roboczym, a identyfikator znajduje się po /lakehouses/w adresie URL.

    Screenshot showing the Lakehouse object ID.

  • Folder główny: wybierz pozycję Tabele lub pliki, które wskazują wirtualny widok obszaru zarządzanego lub niezarządzanego w jeziorze. Aby uzyskać więcej informacji, zapoznaj się z wprowadzeniem do usługi Lakehouse.

    • W przypadku wybrania pozycji Tabele:
      • Nazwa tabeli: wybierz istniejącą tabelę z listy tabel lub określ nazwę tabeli jako źródło.
      • W obszarze Zaawansowane można określić następujące pola:
        • Sygnatura czasowa: określ, aby wykonać zapytanie dotyczące starszej migawki według znacznika czasu.
        • Wersja: określ, aby wykonać zapytanie dotyczące starszej migawki według wersji.
        • Dodatkowe kolumny: Dodaj dodatkowe kolumny danych do ścieżki względnej lub wartości statycznej plików źródłowych. Wyrażenie jest obsługiwane w przypadku tych ostatnich.
    • W przypadku wybrania pozycji Pliki:
      • Typ ścieżki pliku: możesz wybrać ścieżkę pliku, ścieżkę pliku z symbolem wieloznacznymi lub listę plików jako typ ścieżki pliku. Poniższa lista zawiera opis konfiguracji każdego ustawienia:

        Screenshot showing file path.

        • Ścieżka pliku: wybierz pozycję Przeglądaj , aby wybrać plik, który chcesz skopiować, lub wypełnij ścieżkę ręcznie.

        • Ścieżka pliku z symbolami wieloznacznymi: określ folder lub ścieżkę pliku z symbolami wieloznacznymi w danym obszarze niezarządzanych usługi Lakehouse (w obszarze Pliki), aby filtrować foldery źródłowe lub pliki. Dozwolone symbole wieloznaczne to: * (pasuje do zera lub większej liczby znaków) i ? (pasuje do zera lub pojedynczego znaku). Użyj ^ polecenia , aby uniknąć, jeśli nazwa folderu lub pliku ma symbol wieloznaczny lub znak ucieczki wewnątrz.

          • Ścieżka folderu z symbolami wieloznacznymi: ścieżka do folderu w ramach danego kontenera. Jeśli chcesz użyć symbolu wieloznakowego do filtrowania folderu, pomiń to ustawienie i określ te informacje w ustawieniach źródła działań.

          • Nazwa pliku z symbolami wieloznacznymi: nazwa pliku w obszarze niezarządzanych usług Lakehouse (w obszarze Pliki) i ścieżka folderu.

            Screenshot showing wildcard file path.

        • Lista plików: wskazuje, aby skopiować dany zestaw plików.

          • Ścieżka folderu: wskazuje folder zawierający pliki, które chcesz skopiować.
          • Ścieżka do listy plików: wskazuje plik tekstowy zawierający listę plików, które chcesz skopiować, jeden plik na wiersz, czyli ścieżkę względną do skonfigurowanej ścieżki pliku.

          Screenshot showing path to file list.

      • Rekursywnie: wskazuje, czy dane są odczytywane rekursywnie z podfolderów, czy tylko z określonego folderu. Jeśli to ustawienie jest włączone, wszystkie pliki w folderze wejściowym i jego podfolderach są przetwarzane rekursywnie. Ta właściwość nie ma zastosowania podczas konfigurowania typu ścieżki pliku jako Listy plików.

      • Format pliku: wybierz format pliku z listy rozwijanej. Wybierz przycisk Ustawienia, aby skonfigurować format pliku. Aby uzyskać szczegółowe informacje, zobacz artykuły w obsługiwanym formacie .

      • W obszarze Zaawansowane można określić następujące pola:

        • Filtruj według ostatniej modyfikacji: pliki są filtrowane na podstawie dat ostatniej modyfikacji. Ta właściwość nie ma zastosowania podczas konfigurowania typu ścieżki pliku jako Listy plików.
          • Godzina rozpoczęcia: pliki są wybierane, jeśli ich czas ostatniej modyfikacji jest większy lub równy skonfigurowanemu czasowi.
          • Godzina zakończenia: pliki są wybierane, jeśli czas ostatniej modyfikacji jest krótszy niż skonfigurowany czas.
        • Włącz odnajdywanie partycji: w przypadku plików podzielonych na partycje określ, czy analizować partycje ze ścieżki pliku i dodać je jako dodatkowe kolumny źródłowe.
          • Ścieżka główna partycji: po włączeniu odnajdywania partycji określ bezwzględną ścieżkę główną, aby odczytywać podzielone na partycje foldery jako kolumny danych.
        • Maksymalna liczba połączeń współbieżnych: wskazuje górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Określ wartość tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne.

Element docelowy

Następujące właściwości są obsługiwane dla usługi Lakehouse na karcie Miejsce docelowe działania kopiowania.

Screenshot showing destination tab.

Wymaganenastępujące właściwości:

  • Typ magazynu danych: wybierz pozycję Obszar roboczy.

  • Typ magazynu danych obszaru roboczego: wybierz pozycję Lakehouse z listy typów magazynu danych.

  • Lakehouse: wybierz istniejącą usługę Lakehouse z obszaru roboczego. Jeśli żadna z nich nie istnieje, utwórz nową usługę Lakehouse, wybierając pozycję Nowy. Jeśli używasz opcji Dodaj zawartość dynamiczną, aby określić usługę Lakehouse, dodaj parametr i określ identyfikator obiektu Lakehouse jako wartość parametru. Aby uzyskać identyfikator obiektu lakehouse, otwórz usługę Lakehouse w obszarze roboczym, a identyfikator znajduje się po /lakehouses/w adresie URL.

    Screenshot showing the Lakehouse object ID.

  • Folder główny: wybierz pozycję Tabele lub pliki, które wskazują wirtualny widok obszaru zarządzanego lub niezarządzanego w jeziorze. Aby uzyskać więcej informacji, zapoznaj się z wprowadzeniem do usługi Lakehouse.

    • W przypadku wybrania pozycji Tabele:

      • Nazwa tabeli: wybierz istniejącą tabelę z listy tabel lub określ nazwę tabeli jako miejsce docelowe.

        Screenshot showing table name.

      • W obszarze Zaawansowane można określić następujące pola:

        • Maksymalna liczba wierszy na plik: określ maksymalną liczbę wierszy na plik podczas zapisywania danych w usłudze Lakehouse.
        • Akcje tabeli: określ operację dla wybranej tabeli.
          • Dołączanie: Dołączanie nowych wartości do istniejącej tabeli.
          • Zastąp: zastąp istniejące dane i schemat w tabeli przy użyciu nowych wartości. Jeśli ta operacja jest zaznaczona, możesz włączyć partycję w tabeli docelowej:
            • Włącz partycję: ten wybór umożliwia tworzenie partycji w strukturze folderów na podstawie jednej lub wielu kolumn. Każda unikatowa wartość kolumny (para) to nowa partycja. Na przykład "year=2000/month=01/file". Ten wybór obsługuje tryb tylko do wstawiania i wymaga pustego katalogu w miejscu docelowym.
              • Nazwa kolumny partycji: wybierz z kolumn docelowych w mapowaniu schematów. Obsługiwane typy danych to ciąg, liczba całkowita, wartość logiczna i data/godzina. Format uwzględnia ustawienia konwersji typów na karcie Mapowanie .
        • Maksymalna liczba połączeń współbieżnych: górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Określ wartość tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne.
    • W przypadku wybrania pozycji Pliki:

      • Ścieżka pliku: wybierz pozycję Przeglądaj , aby wybrać plik, który chcesz skopiować, lub wypełnij ścieżkę ręcznie.

        Screenshot showing files path in destination.

      • Format pliku: wybierz format pliku z listy rozwijanej. Wybierz Ustawienia, aby skonfigurować format pliku. Aby uzyskać szczegółowe informacje, zobacz artykuły w obsługiwanym formacie .

      • W obszarze Zaawansowane można określić następujące pola:

        • Zachowanie kopiowania: definiuje zachowanie kopiowania, gdy źródłem są pliki z magazynu danych opartego na plikach. Możesz wybrać opcję Dodaj zawartość dynamiczną, Brak, Hierarchia spłaszczania lub Zachowaj hierarchię jako zachowanie kopiowania . Konfiguracja każdego ustawienia to:

          • Dodaj zawartość dynamiczną: aby określić wyrażenie dla wartości właściwości, wybierz pozycję Dodaj zawartość dynamiczną. To pole otwiera konstruktora wyrażeń, w którym można tworzyć wyrażenia z obsługiwanych zmiennych systemowych, danych wyjściowych działań, funkcji i zmiennych lub parametrów określonych przez użytkownika. Aby uzyskać więcej informacji na temat języka wyrażeń, zobacz Wyrażenia i funkcje.

          • Brak: wybierz ten wybór, aby nie używać żadnego zachowania kopiowania.

          • Hierarchia spłaszczana: wszystkie pliki z folderu źródłowego znajdują się na pierwszym poziomie folderu docelowego. Pliki docelowe mają automatycznie wygenerowane nazwy.

          • Zachowaj hierarchię: zachowuje hierarchię plików w folderze docelowym. Ścieżka względna pliku źródłowego do folderu źródłowego jest identyczna ze ścieżką względną pliku docelowego do folderu docelowego.

            Screenshot showing copy behavior.

        • Maksymalna liczba połączeń współbieżnych: górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Określ wartość tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne.

        • Rozmiar bloku (MB): określ rozmiar bloku w MB podczas zapisywania danych w usłudze Lakehouse. Dozwolona wartość wynosi od 4 MB do 100 MB.

        • Metadane: ustaw niestandardowe metadane podczas kopiowania do docelowego magazynu danych. Każdy obiekt w tablicy metadata reprezentuje dodatkową kolumnę. Element name definiuje nazwę klucza metadanych i value wskazuje wartość danych tego klucza. Jeśli jest używana funkcja zachowania atrybutów, określone metadane będą union/overwrite z metadanymi pliku źródłowego. Dozwolone wartości danych to:

          • $$LASTMODIFIED: zmienna zarezerwowana wskazuje czas ostatniej modyfikacji plików źródłowych. Zastosuj do źródła opartego na plikach tylko w formacie binarnym.

          • Expression

          • Wartość statyczna

            Screenshot showing metadata.

Mapowanie

W przypadku konfiguracji karty Mapowanie , jeśli nie zastosujesz tabeli Lakehouse jako docelowego magazynu danych, przejdź do pozycji Mapowanie.

Jeśli zastosujesz tabelę Lakehouse jako docelowy magazyn danych, z wyjątkiem konfiguracji w obszarze Mapowanie, możesz edytować typ kolumn docelowych. Po wybraniu pozycji Importuj schematy można określić typ kolumny w miejscu docelowym.

Na przykład typ kolumny PersonID w źródle jest int i można zmienić go na typ ciągu podczas mapowania na kolumnę docelową.

Screenshot of mapping destination column type.

Uwaga

Edytowanie typu docelowego nie jest obecnie obsługiwane, gdy źródło jest typem dziesiętny.

Jeśli wybierzesz plik binarny jako format pliku, mapowanie nie jest obsługiwane.

Ustawienia

Aby uzyskać konfigurację karty Ustawienia, przejdź do Ustawienia.

Podsumowanie tabeli

Poniższe tabele zawierają więcej informacji na temat działania kopiowania w usłudze Lakehouse.

Informacje źródłowe

Nazwa/nazwisko Opis Wartość Wymagania Właściwość skryptu JSON
Typ magazynu danych Typ magazynu danych. Workspace Tak /
Typ magazynu danych obszaru roboczego Sekcja do wybrania typu magazynu danych obszaru roboczego. Lakehouse Tak type
Lakehouse Lakehouse, którego używasz jako źródła. <twoja usługa Lakehouse> Tak workspaceId
artifactId
Folder główny Typ folderu głównego. * Tabele
* Pliki
Nie. Rootfolder:
Tabela lub pliki
Nazwa tabeli Nazwa tabeli do odczytywania danych. <nazwa tabeli> Tak po wybraniu pozycji Tabele w folderze głównym Tabeli
(w obszarze typeProperties ->source ->typeProperties)
Sygnatura czasowa Sygnatura czasowa do wykonywania zapytań względem starszej migawki. <Sygnatury czasowej> Nie. timestampAsOf
Wersja Wersja do wykonywania zapytań względem starszej migawki. <version> Nie. versionAsOf
Dodatkowe kolumny Dodatkowe kolumny danych do przechowywania ścieżki względnej lub wartości statycznej plików źródłowych. Wyrażenie jest obsługiwane w przypadku tych ostatnich. *Nazwa
*Wartość
Nie. additionalColumns:
*Nazwa
*Wartość
Typ ścieżki pliku Typ używanej ścieżki pliku. * Ścieżka pliku
* Ścieżka pliku z symbolami wieloznacznymi
* Lista plików
Tak /
Ścieżka pliku Skopiuj ze ścieżki do folderu/pliku w źródłowym magazynie danych. Zastosuj podczas wybierania ścieżki pliku w polu Typ ścieżki pliku. <ścieżka pliku> Tak podczas wybierania ścieżki pliku *Folderpath
*Pod nazwą
Ścieżki z symbolami wieloznacznymi Ścieżka folderu z symbolami wieloznacznymi w magazynie danych źródłowych skonfigurowanym do filtrowania folderów źródłowych. Zastosuj podczas wybierania ścieżki pliku symbolu wieloznakowego w polu Typ ścieżki pliku. <ścieżki wieloznaczne> Tak podczas wybierania ścieżki pliku z symbolami wieloznacznymi * symbol wieloznacznyFolderPath
* symbol wieloznacznyFileName
Ścieżka folderu Wskazuje folder zawierający pliki, które chcesz skopiować. Zastosuj podczas wybierania pozycji Lista plików w typie ścieżki pliku. <ścieżka folderu> Nie. folderPath
Ścieżka do listy plików Wskazuje, aby skopiować dany zestaw plików. Wskaż plik tekstowy zawierający listę plików, które chcesz skopiować, jeden plik na wiersz, który jest ścieżką względną do skonfigurowanej ścieżki. Zastosuj podczas wybierania pozycji Lista plików w typie ścieżki pliku. <ścieżka do listy plików> Nie. fileListPath
Rekursywnie Przetwarzaj wszystkie pliki w folderze wejściowym i jego podfolderach rekursywnie lub tylko te w wybranym folderze. To ustawienie jest wyłączone po wybraniu pojedynczego pliku. zaznacz lub usuń zaznaczenie Nie. Cykliczne:
prawda lub fałsz
Format pliku Format używanego pliku. <format pliku> Tak type (w obszarze formatSettings):
DelimitedTextRead Ustawienia
Filtruj według ostatniej modyfikacji Pliki o ostatniej modyfikacji w zakresie [Godzina rozpoczęcia, Godzina zakończenia) będą filtrowane pod kątem dalszego przetwarzania.

Czas zostanie zastosowany do strefy czasowej UTC w formacie "rrrr-mm-ddThh:mm:ss.fffZ".

Tę właściwość można pominąć, co oznacza, że nie zostanie zastosowany filtr atrybutu pliku. Ta właściwość nie ma zastosowania podczas konfigurowania typu ścieżki pliku jako Listy plików.
* Godzina rozpoczęcia
* Godzina zakończenia
Nie. modifiedDatetimeStart
modifiedDatetimeEnd
Włączanie odnajdywania partycji Czy przeanalizować partycje ze ścieżki pliku i dodać je jako dodatkowe kolumny źródłowe. Wybrane lub niezaznaczone Nie. enablePartitionDiscovery:
true lub false (wartość domyślna)
Ścieżka główna partycji Ścieżka główna partycji bezwzględnej do odczytu folderów podzielonych na partycje jako kolumny danych. <ścieżka główna partycji> Nie. partitionRootPath
Maksymalna liczba połączeń współbieżnych Górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Wartość jest potrzebna tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne. <maksymalna liczba połączeń współbieżnych> Nie. maxConcurrent Połączenie ions

Informacje o lokalizacji docelowej

Nazwa/nazwisko Opis Wartość Wymagania Właściwość skryptu JSON
Typ magazynu danych Typ magazynu danych. Workspace Tak /
Typ magazynu danych obszaru roboczego Sekcja do wybrania typu magazynu danych obszaru roboczego. Lakehouse Tak type
Lakehouse Lakehouse, którego używasz jako miejsca docelowego. <twoja usługa Lakehouse> Tak workspaceId
artifactId
Folder główny Typ folderu głównego. * Tabele
* Pliki
Tak Rootfolder:
Tabela lub pliki
Nazwa tabeli Nazwa tabeli, do której chcesz zapisywać dane. <nazwa tabeli> Tak po wybraniu pozycji Tabele w folderze głównym Tabeli
(w obszarze typeProperties ->sink ->typeProperties)
Maksymalna liczba wierszy na plik Podczas zapisywania danych w folderze można wybrać zapisywanie w wielu plikach i określić maksymalną liczbę wierszy na plik. <maksymalna liczba wierszy na flie> Nie. maxRowsPerFile
Akcja tabeli Dołącz nowe wartości do istniejącej tabeli lub zastąp istniejące dane i schemat w tabeli przy użyciu nowych wartości. * Dołączanie
* Zastępowanie
Nie. tableActionOption:
Dołączanie lub zastępowanie
Maksymalna liczba połączeń współbieżnych Górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Określ wartość tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne. <maksymalna liczba połączeń współbieżnych> Nie. maxConcurrent Połączenie ions
Ścieżka pliku Zapisz dane w ścieżce do folderu/pliku w docelowym magazynie danych. <ścieżka pliku> Nie. *Folderpath
*Pod nazwą
Format pliku Format używanego pliku. <format pliku> Tak type (w obszarze formatSettings):
DelimitedTextWrite Ustawienia
Zachowanie kopiowania Zachowanie kopiowania zdefiniowane, gdy źródłem są pliki z magazynu danych opartego na plikach. * Dodawanie zawartości dynamicznej
* Brak
* Hierarchia spłaszczana
* Zachowaj hierarchię
Nie. copyBehavior:


* FlattenHierarchy
* PreserveHierarchy
Rozmiar bloku (MB) Rozmiar bloku w MB używany do zapisywania danych w usłudze Lakehouse. Dozwolona wartość wynosi od 4 MB do 100 MB. <rozmiar bloku> Nie. blockSizeInMB
Metadane Niestandardowy zestaw metadanych podczas kopiowania do miejsca docelowego. * $$LASTMODIFIED
*Wyrażenie
* Wartość statyczna
Nie. metadane

Następne kroki