Udostępnij za pośrednictwem


Konfigurowanie usługi Lakehouse w działaniu kopiowania

W tym artykule opisano sposób używania działania kopiowania w potoku danych do kopiowania danych z i do usługi Fabric Lakehouse. Domyślnie dane są zapisywane w tabeli Lakehouse Table w kolejności wirtualnej i można przejść do pozycji Optymalizacja tabel usługi Delta Lake i Kolejność V, aby uzyskać więcej informacji.

Obsługiwany format

Usługa Lakehouse obsługuje następujące formaty plików. Zapoznaj się z każdym artykułem, aby zapoznać się z ustawieniami opartymi na formacie.

Obsługiwana konfiguracja

W przypadku konfiguracji każdej karty w działaniu kopiowania przejdź odpowiednio do poniższych sekcji.

Ogólne

W obszarze Konfiguracja karty Ogólne przejdź do pozycji Ogólne.

Źródło

Następujące właściwości są obsługiwane dla usługi Lakehouse na karcie Źródło działania kopiowania.

Zrzut ekranu przedstawiający kartę źródłową i listę właściwości.

Wymaganenastępujące właściwości:

  • Połączenie: wybierz połączenie usługi Lakehouse z listy połączeń. Jeśli połączenie nie istnieje, utwórz nowe połączenie usługi Lakehouse, wybierając pozycję Więcej w dolnej części listy połączeń. Jeśli zastosujesz opcję Użyj zawartości dynamicznej, aby określić usługę Lakehouse, dodaj parametr i określ identyfikator obiektu Lakehouse jako wartość parametru. Aby uzyskać identyfikator obiektu lakehouse, otwórz usługę Lakehouse w obszarze roboczym, a identyfikator znajduje się po /lakehouses/w adresie URL.

    Zrzut ekranu przedstawiający identyfikator obiektu Lakehouse.

  • Folder główny: wybierz pozycję Tabele lub pliki, które wskazują wirtualny widok obszaru zarządzanego lub niezarządzanego w jeziorze. Aby uzyskać więcej informacji, zapoznaj się z wprowadzeniem do usługi Lakehouse.

    • W przypadku wybrania pozycji Tabele:

      • Nazwa tabeli: wybierz istniejącą tabelę z listy tabel lub określ nazwę tabeli jako źródło. Możesz też wybrać pozycję Nowy , aby utworzyć nową tabelę.

        Zrzut ekranu przedstawiający nazwę tabeli.

      • Tabela: w przypadku stosowania usługi Lakehouse ze schematami w połączeniu wybierz istniejącą tabelę ze schematem z listy tabel lub określ tabelę ze schematem jako źródłem. Możesz też wybrać pozycję Nowy , aby utworzyć nową tabelę ze schematem. Jeśli nie określisz nazwy schematu, usługa użyje dbo jako schematu domyślnego.

        Zrzut ekranu przedstawiający nazwę tabeli ze schematem.

      • W obszarze Zaawansowane można określić następujące pola:

        • Sygnatura czasowa: określ, aby wykonać zapytanie dotyczące starszej migawki według znacznika czasu.
        • Wersja: określ, aby wykonać zapytanie dotyczące starszej migawki według wersji.
        • Dodatkowe kolumny: Dodaj dodatkowe kolumny danych do ścieżki względnej lub wartości statycznej plików źródłowych. Wyrażenie jest obsługiwane w przypadku tych ostatnich.

      Obsługiwany jest czytnik w wersji 1. Odpowiednie obsługiwane funkcje usługi Delta Lake można znaleźć w tym artykule.

    • W przypadku wybrania pozycji Pliki:

      • Typ ścieżki pliku: możesz wybrać ścieżkę pliku, ścieżkę pliku z symbolem wieloznacznymi lub listę plików jako typ ścieżki pliku. Poniższa lista zawiera opis konfiguracji każdego ustawienia:

        Zrzut ekranu przedstawiający ścieżkę pliku.

        • Ścieżka pliku: wybierz pozycję Przeglądaj , aby wybrać plik, który chcesz skopiować, lub wypełnij ścieżkę ręcznie.

        • Ścieżka pliku z symbolami wieloznacznymi: określ folder lub ścieżkę pliku z symbolami wieloznacznymi w danym obszarze niezarządzanych usługi Lakehouse (w obszarze Pliki), aby filtrować foldery źródłowe lub pliki. Dozwolone symbole wieloznaczne to: * (pasuje do zera lub większej liczby znaków) i ? (pasuje do zera lub pojedynczego znaku). Użyj ^ polecenia , aby uniknąć, jeśli nazwa folderu lub pliku ma symbol wieloznaczny lub znak ucieczki wewnątrz.

          • Ścieżka folderu z symbolami wieloznacznymi: ścieżka do folderu w ramach danego kontenera. Jeśli chcesz użyć symbolu wieloznakowego do filtrowania folderu, pomiń to ustawienie i określ te informacje w ustawieniach źródła działań.

          • Nazwa pliku z symbolami wieloznacznymi: nazwa pliku w obszarze niezarządzanych usług Lakehouse (w obszarze Pliki) i ścieżka folderu.

            Zrzut ekranu przedstawiający ścieżkę pliku z symbolami wieloznacznymi.

        • Lista plików: wskazuje, aby skopiować dany zestaw plików.

          • Ścieżka folderu: wskazuje folder zawierający pliki, które chcesz skopiować.
          • Ścieżka do listy plików: wskazuje plik tekstowy zawierający listę plików, które chcesz skopiować, jeden plik na wiersz, czyli ścieżkę względną do skonfigurowanej ścieżki pliku.

          Zrzut ekranu przedstawiający ścieżkę do listy plików.

      • Rekursywnie: wskazuje, czy dane są odczytywane rekursywnie z podfolderów, czy tylko z określonego folderu. Jeśli to ustawienie jest włączone, wszystkie pliki w folderze wejściowym i jego podfolderach są przetwarzane rekursywnie. Ta właściwość nie ma zastosowania podczas konfigurowania typu ścieżki pliku jako Listy plików.

      • Format pliku: wybierz format pliku z listy rozwijanej. Wybierz przycisk Ustawienia, aby skonfigurować format pliku. Aby uzyskać szczegółowe informacje, zobacz artykuły w obsługiwanym formacie .

      • W obszarze Zaawansowane można określić następujące pola:

        • Filtruj według ostatniej modyfikacji: pliki są filtrowane na podstawie dat ostatniej modyfikacji. Ta właściwość nie ma zastosowania podczas konfigurowania typu ścieżki pliku jako Listy plików.
          • Godzina rozpoczęcia: pliki są wybierane, jeśli ich czas ostatniej modyfikacji jest większy lub równy skonfigurowanemu czasowi.
          • Godzina zakończenia: pliki są wybierane, jeśli czas ostatniej modyfikacji jest krótszy niż skonfigurowany czas.
        • Włącz odnajdywanie partycji: w przypadku plików podzielonych na partycje określ, czy analizować partycje ze ścieżki pliku i dodać je jako dodatkowe kolumny źródłowe.
          • Ścieżka główna partycji: po włączeniu odnajdywania partycji określ bezwzględną ścieżkę główną, aby odczytywać podzielone na partycje foldery jako kolumny danych.
        • Maksymalna liczba połączeń współbieżnych: wskazuje górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Określ wartość tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne.

Element docelowy

Następujące właściwości są obsługiwane dla usługi Lakehouse na karcie Miejsce docelowe działania kopiowania.

Zrzut ekranu przedstawiający kartę docelową.

Wymaganenastępujące właściwości:

  • Połączenie: wybierz połączenie usługi Lakehouse z listy połączeń. Jeśli połączenie nie istnieje, utwórz nowe połączenie usługi Lakehouse, wybierając pozycję Więcej w dolnej części listy połączeń. Jeśli zastosujesz opcję Użyj zawartości dynamicznej, aby określić usługę Lakehouse, dodaj parametr i określ identyfikator obiektu Lakehouse jako wartość parametru. Aby uzyskać identyfikator obiektu lakehouse, otwórz usługę Lakehouse w obszarze roboczym, a identyfikator znajduje się po /lakehouses/w adresie URL.

    Zrzut ekranu przedstawiający identyfikator obiektu Lakehouse.

  • Folder główny: wybierz pozycję Tabele lub pliki, które wskazują wirtualny widok obszaru zarządzanego lub niezarządzanego w jeziorze. Aby uzyskać więcej informacji, zapoznaj się z wprowadzeniem do usługi Lakehouse.

    • W przypadku wybrania pozycji Tabele:

      • Nazwa tabeli: wybierz istniejącą tabelę z listy tabel lub określ nazwę tabeli jako miejsce docelowe. Możesz też wybrać pozycję Nowy , aby utworzyć nową tabelę.

        Zrzut ekranu przedstawiający nazwę tabeli.

      • Tabela: w przypadku stosowania usługi Lakehouse ze schematami w połączeniu wybierz istniejącą tabelę ze schematem z listy tabel lub określ tabelę ze schematem jako lokalizacją docelową. Możesz też wybrać pozycję Nowy , aby utworzyć nową tabelę ze schematem. Jeśli nie określisz nazwy schematu, usługa użyje dbo jako schematu domyślnego.

        Zrzut ekranu przedstawiający nazwę tabeli ze schematem.

      • W obszarze Zaawansowane można określić następujące pola:

        • Akcje tabeli: określ operację dla wybranej tabeli.

          • Dołączanie: Dołączanie nowych wartości do istniejącej tabeli.

            • Włącz partycję: ten wybór umożliwia tworzenie partycji w strukturze folderów na podstawie jednej lub wielu kolumn. Każda unikatowa wartość kolumny (para) to nowa partycja. Na przykład "year=2000/month=01/file".
              • Nazwa kolumny partycji: wybierz z kolumn docelowych w mapowaniu schematów podczas dołączania danych do nowej tabeli. Po dołączeniu danych do istniejącej tabeli, która ma już partycje, kolumny partycji pochodzą z istniejącej tabeli automatycznie. Obsługiwane typy danych to ciąg, liczba całkowita, wartość logiczna i data/godzina. Format uwzględnia ustawienia konwersji typów na karcie Mapowanie .
          • Zastąp: zastąp istniejące dane i schemat w tabeli przy użyciu nowych wartości. Jeśli ta operacja jest zaznaczona, możesz włączyć partycję w tabeli docelowej:

            • Włącz partycję: ten wybór umożliwia tworzenie partycji w strukturze folderów na podstawie jednej lub wielu kolumn. Każda unikatowa wartość kolumny (para) to nowa partycja. Na przykład "year=2000/month=01/file".
              • Nazwa kolumny partycji: wybierz z kolumn docelowych w mapowaniu schematów. Obsługiwane typy danych to ciąg, liczba całkowita, wartość logiczna i data/godzina. Format uwzględnia ustawienia konwersji typów na karcie Mapowanie .

            Obsługuje on podróże czasowe usługi Delta Lake. Tabela zastąpiona zawiera dzienniki różnicowe dla poprzednich wersji, do których można uzyskać dostęp w usłudze Lakehouse. Możesz również skopiować poprzednią tabelę wersji z usługi Lakehouse, określając wersję w źródle działania kopiowania.

        • Maksymalna liczba połączeń współbieżnych: górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Określ wartość tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne.

      Składnik zapisywania w wersji 2 jest obsługiwany. Odpowiednie obsługiwane funkcje usługi Delta Lake można znaleźć w tym artykule.

    • W przypadku wybrania pozycji Pliki:

      • Ścieżka pliku: wybierz pozycję Przeglądaj , aby wybrać plik, który chcesz skopiować, lub wypełnij ścieżkę ręcznie.

        Zrzut ekranu przedstawiający ścieżkę plików w miejscu docelowym.

      • Format pliku: wybierz format pliku z listy rozwijanej. Wybierz pozycję Ustawienia , aby skonfigurować format pliku. Aby uzyskać szczegółowe informacje, zobacz artykuły w obsługiwanym formacie .

      • W obszarze Zaawansowane można określić następujące pola:

        • Zachowanie kopiowania: definiuje zachowanie kopiowania, gdy źródłem są pliki z magazynu danych opartego na plikach. Jako zachowanie kopiowania można wybrać opcję Spłaszczanie hierarchii, Scal pliki, Zachowaj hierarchię lub Dodaj zawartość dynamiczną. Konfiguracja każdego ustawienia to:

          • Hierarchia spłaszczana: wszystkie pliki z folderu źródłowego znajdują się na pierwszym poziomie folderu docelowego. Pliki docelowe mają automatycznie wygenerowane nazwy.

          • Scal pliki: scala wszystkie pliki z folderu źródłowego do jednego pliku. Jeśli określono nazwę pliku, scalona nazwa pliku jest określoną nazwą. W przeciwnym razie jest to automatycznie wygenerowana nazwa pliku.

          • Zachowaj hierarchię: zachowuje hierarchię plików w folderze docelowym. Ścieżka względna pliku źródłowego do folderu źródłowego jest identyczna ze ścieżką względną pliku docelowego do folderu docelowego.

          • Dodaj zawartość dynamiczną: aby określić wyrażenie dla wartości właściwości, wybierz pozycję Dodaj zawartość dynamiczną. To pole otwiera konstruktora wyrażeń, w którym można tworzyć wyrażenia z obsługiwanych zmiennych systemowych, danych wyjściowych działań, funkcji i zmiennych lub parametrów określonych przez użytkownika. Aby uzyskać więcej informacji na temat języka wyrażeń, zobacz Wyrażenia i funkcje.

            Zrzut ekranu przedstawiający zachowanie kopiowania.

        • Maksymalna liczba połączeń współbieżnych: górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Określ wartość tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne.

        • Rozmiar bloku (MB): określ rozmiar bloku w MB podczas zapisywania danych w usłudze Lakehouse. Dozwolona wartość wynosi od 4 MB do 100 MB.

        • Metadane: ustaw niestandardowe metadane podczas kopiowania do docelowego magazynu danych. Każdy obiekt w tablicy metadata reprezentuje dodatkową kolumnę. Element name definiuje nazwę klucza metadanych i value wskazuje wartość danych tego klucza. Jeśli jest używana funkcja zachowania atrybutów, określone metadane będą union/overwrite z metadanymi pliku źródłowego. Dozwolone wartości danych to:

          • $$LASTMODIFIED: zmienna zarezerwowana wskazuje czas ostatniej modyfikacji plików źródłowych. Zastosuj do źródła opartego na plikach tylko w formacie binarnym.

          • Wyrażenie

          • Wartość statyczna

            Zrzut ekranu przedstawiający metadane.

Mapowanie

W przypadku konfiguracji karty Mapowanie , jeśli nie zastosujesz tabeli Lakehouse jako docelowego magazynu danych, przejdź do pozycji Mapowanie.

Jeśli zastosujesz tabelę Lakehouse jako docelowy magazyn danych, z wyjątkiem konfiguracji w obszarze Mapowanie, możesz edytować typ kolumn docelowych. Po wybraniu pozycji Importuj schematy można określić typ kolumny w miejscu docelowym.

Na przykład typ kolumny PersonID w źródle jest int i można zmienić go na typ ciągu podczas mapowania na kolumnę docelową.

Zrzut ekranu przedstawiający typ kolumny docelowej mapowania.

Uwaga

Edytowanie typu docelowego nie jest obecnie obsługiwane, gdy źródło jest typem dziesiętny.

Jeśli wybierzesz plik binarny jako format pliku, mapowanie nie jest obsługiwane.

Ustawienia

W obszarze Konfiguracja karty Ustawienia przejdź do pozycji Ustawienia.

Podsumowanie tabeli

Poniższe tabele zawierają więcej informacji na temat działania kopiowania w usłudze Lakehouse.

Informacje źródłowe

Nazwa/nazwisko Opis Wartość Wymagania Właściwość skryptu JSON
Połączenie Sekcja do wybrania połączenia. < połączenie usługi Lakehouse> Tak workspaceId
artifactId
Folder główny Typ folderu głównego. Tabele
Pliki
Nie. folder główny:
Tabela lub pliki
Nazwa tabeli Nazwa tabeli, którą chcesz odczytać. <nazwa tabeli> Tak po wybraniu pozycji Tabele w folderze głównym table
Tabela Nazwa tabeli ze schematem, który ma być odczytywany podczas stosowania usługi Lakehouse ze schematami jako połączenie. <tabela ze schematem> Tak po wybraniu pozycji Tabele w folderze głównym /
Dla tabeli
nazwa schematu Nazwa schematu. <nazwa schematu>
(wartość domyślna to dbo)
Nie. (w obszarze source ->datasetSettings ->typeProperties)
schema
nazwa tabeli Nazwa tabeli. <nazwa tabeli> Tak table
Sygnatura czasowa Sygnatura czasowa do wykonywania zapytań względem starszej migawki. <Sygnatury czasowej> Nie. timestampAsOf
Wersja Wersja do wykonywania zapytań względem starszej migawki. <version> Nie. versionAsOf
Dodatkowe kolumny Dodatkowe kolumny danych do przechowywania ścieżki względnej lub wartości statycznej plików źródłowych. Wyrażenie jest obsługiwane w przypadku tych ostatnich. • Nazwa
•Wartość
Nie. additionalColumns:
•nazwa
•wartość
Typ ścieżki pliku Typ używanej ścieżki pliku. Ścieżka pliku
Ścieżka pliku z symbolami wieloznacznymi
Lista plików
Tak po wybraniu pozycji Pliki w folderze głównym /
Ścieżka pliku Skopiuj ze ścieżki do folderu/pliku w źródłowym magazynie danych. <ścieżka pliku> Tak podczas wybierania ścieżki pliku • folderPath
•Pod nazwą
Ścieżki z symbolami wieloznacznymi Ścieżka folderu z symbolami wieloznacznymi w magazynie danych źródłowych skonfigurowanym do filtrowania folderów źródłowych. <ścieżki wieloznaczne> Tak podczas wybierania ścieżki pliku z symbolami wieloznacznymi • symbol wieloznacznyFolderPath
• symbol wieloznacznyFileName
Ścieżka folderu Wskazuje folder zawierający pliki, które chcesz skopiować. <ścieżka folderu> Nie. folderPath
Ścieżka do listy plików Wskazuje, aby skopiować dany zestaw plików. Wskaż plik tekstowy zawierający listę plików, które chcesz skopiować, jeden plik na wiersz, który jest ścieżką względną do skonfigurowanej ścieżki. <ścieżka do listy plików> Nie. fileListPath
Rekursywnie Przetwarzaj wszystkie pliki w folderze wejściowym i jego podfolderach rekursywnie lub tylko te w wybranym folderze. To ustawienie jest wyłączone po wybraniu pojedynczego pliku. zaznacz lub usuń zaznaczenie Nie. Cykliczne:
prawda lub fałsz
Format pliku Format pliku dla danych źródłowych. Aby uzyskać informacje o różnych formatach plików, zapoznaj się z artykułami w obsługiwanym formacie , aby uzyskać szczegółowe informacje. / Tak po wybraniu pozycji Pliki w folderze głównym /
Filtruj według ostatniej modyfikacji Pliki o ostatniej modyfikacji w zakresie [Godzina rozpoczęcia, Godzina zakończenia) będą filtrowane pod kątem dalszego przetwarzania.

Czas jest stosowany do strefy czasowej UTC w formacie yyyy-mm-ddThh:mm:ss.fffZ.

Tę właściwość można pominąć, co oznacza, że nie zastosowano filtru atrybutu pliku. Ta właściwość nie ma zastosowania podczas konfigurowania typu ścieżki pliku jako Listy plików.
Godzina rozpoczęcia
Godzina zakończenia
Nie. modifiedDatetimeStart
modifiedDatetimeEnd
Włączanie odnajdywania partycji Czy przeanalizować partycje ze ścieżki pliku i dodać je jako dodatkowe kolumny źródłowe. Wybrane lub niezaznaczone Nie. enablePartitionDiscovery:
true lub false (wartość domyślna)
Ścieżka główna partycji Ścieżka główna partycji bezwzględnej do odczytu folderów podzielonych na partycje jako kolumny danych. <ścieżka główna partycji> Nie. partitionRootPath
Maksymalna liczba połączeń współbieżnych Górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Wartość jest potrzebna tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne. <maksymalna liczba połączeń współbieżnych> Nie. maxConcurrentConnections

Informacje o lokalizacji docelowej

Nazwa/nazwisko Opis Wartość Wymagania Właściwość skryptu JSON
Połączenie Sekcja do wybrania połączenia. < połączenie usługi Lakehouse> Tak workspaceId
artifactId
Folder główny Typ folderu głównego. Tabele
Pliki
Tak folder główny:
Tabela lub pliki
Nazwa tabeli Nazwa tabeli, do której chcesz zapisywać dane. <nazwa tabeli> Tak po wybraniu pozycji Tabele w folderze głównym table
Tabela Nazwa tabeli ze schematem, do którego chcesz zapisywać dane podczas stosowania usługi Lakehouse ze schematami jako połączeniem. <tabela ze schematem> Tak po wybraniu pozycji Tabele w folderze głównym /
Dla tabeli
nazwa schematu Nazwa schematu. <nazwa schematu>
(wartość domyślna to dbo)
Nie. (w obszarze sink ->datasetSettings ->typeProperties)
schema
nazwa tabeli Nazwa tabeli. <nazwa tabeli> Tak table
Akcja tabeli Dołącz nowe wartości do istniejącej tabeli lub zastąp istniejące dane i schemat w tabeli przy użyciu nowych wartości. Dołącz
Zastępowanie
Nie. tableActionOption:
Dołączanie lub zastępowanieSchema
Włączanie partycji Ten wybór umożliwia tworzenie partycji w strukturze folderów na podstawie jednej lub wielu kolumn. Każda unikatowa wartość kolumny (para) to nowa partycja. Na przykład "year=2000/month=01/file". Wybrane lub niezaznaczone Nie. partitionOption:
PartitionByKey lub None
Partycjonowanie kolumn Kolumny docelowe w mapowaniu schematów. <kolumny partycji> Nie. partitionNameList
Ścieżka pliku Zapisz dane w ścieżce do folderu/pliku w docelowym magazynie danych. <ścieżka pliku> Nie. • folderPath
•Pod nazwą
Format pliku Format pliku dla danych docelowych. Aby uzyskać informacje o różnych formatach plików, zapoznaj się z artykułami w obsługiwanym formacie , aby uzyskać szczegółowe informacje. / Tak po wybraniu pozycji Pliki w folderze głównym /
Zachowanie kopiowania Zachowanie kopiowania zdefiniowane, gdy źródłem są pliki z magazynu danych opartego na plikach. Hierarchia spłaszczana
Scalanie plików
Zachowaj hierarchię
Dodawanie zawartości dynamicznej
Nie. copyBehavior:
• FlattenHierarchy
• MergeFiles
• PreserveHierarchy
Maksymalna liczba połączeń współbieżnych Górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Określ wartość tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne. <maksymalna liczba połączeń współbieżnych> Nie. maxConcurrentConnections
Rozmiar bloku (MB) Rozmiar bloku w MB używany do zapisywania danych w usłudze Lakehouse. Dozwolona wartość wynosi od 4 MB do 100 MB. <rozmiar bloku> Nie. blockSizeInMB
Metadane Niestandardowy zestaw metadanych podczas kopiowania do miejsca docelowego. $$LASTMODIFIED
•Wyrażenie
• Wartość statyczna
Nie. metadane