Jak skonfigurować usługę Lakehouse w działaniu kopiowania
W tym artykule opisano sposób używania działania kopiowania w potoku danych do kopiowania danych z i do usługi Fabric Lakehouse.
Ważne
Usługa Microsoft Fabric jest obecnie dostępna w wersji zapoznawczej. Te informacje odnoszą się do produktu w wersji wstępnej, który może zostać znacząco zmodyfikowany przed jego wydaniem. Firma Microsoft nie udziela żadnych gwarancji, wyrażonych ani domniemanych, w odniesieniu do podanych tutaj informacji. Zapoznaj się z dokumentacją usługi Azure Data Factory dotyczącą usługi na platformie Azure.
Obsługiwany format
Usługa Lakehouse obsługuje następujące formaty plików. Zapoznaj się z każdym artykułem, aby zapoznać się z ustawieniami opartymi na formacie.
- Format Avro
- Format binarny
- Format tekstu rozdzielanego
- Format programu Excel
- Format JSON
- Format ORC
- Format Parquet
- Format XML
Obsługiwana konfiguracja
W przypadku konfiguracji każdej karty w działaniu kopiowania przejdź odpowiednio do poniższych sekcji.
Ogólne
W obszarze Konfiguracja karty Ogólne przejdź do pozycji Ogólne.
Lokalizacja źródłowa
Następujące właściwości są obsługiwane dla usługi Lakehouse na karcie Źródło działania kopiowania.
Wymagane są następujące właściwości:
Typ magazynu danych: wybierz pozycję Obszar roboczy.
Typ magazynu danych obszaru roboczego: wybierz pozycję Lakehouse z listy typów magazynu danych.
Lakehouse: wybierz istniejącą usługę Lakehouse z obszaru roboczego. Jeśli żadna z nich nie istnieje, utwórz nową usługę Lakehouse, wybierając pozycję Nowy. Jeśli używasz opcji Dodaj zawartość dynamiczną, aby określić usługę Lakehouse, dodaj parametr i określ identyfikator obiektu Lakehouse jako wartość parametru. Aby uzyskać identyfikator obiektu lakehouse, otwórz usługę Lakehouse w obszarze roboczym, a identyfikator znajduje się po
/lakehouses/
w adresie URL.Folder główny: wybierz pozycję Tabele lub pliki, które wskazują wirtualny widok obszaru zarządzanego lub niezarządzanego w jeziorze. Aby uzyskać więcej informacji, zapoznaj się z wprowadzeniem do usługi Lakehouse.
- W przypadku wybrania pozycji Tabele:
- Nazwa tabeli: wybierz istniejącą tabelę z listy tabel lub określ nazwę tabeli jako źródło.
- W obszarze Zaawansowane można określić następujące pola:
- Sygnatura czasowa: określ, aby wykonać zapytanie dotyczące starszej migawki według znacznika czasu.
- Wersja: określ, aby wykonać zapytanie dotyczące starszej migawki według wersji.
- Dodatkowe kolumny: Dodaj dodatkowe kolumny danych do ścieżki względnej lub wartości statycznej plików źródłowych. Wyrażenie jest obsługiwane w przypadku tych ostatnich.
- W przypadku wybrania pozycji Pliki:
Typ ścieżki pliku: możesz wybrać ścieżkę pliku, ścieżkę pliku z symbolem wieloznacznymi lub listę plików jako typ ścieżki pliku. Poniższa lista zawiera opis konfiguracji każdego ustawienia:
Ścieżka pliku: wybierz pozycję Przeglądaj , aby wybrać plik, który chcesz skopiować, lub wypełnij ścieżkę ręcznie.
Ścieżka pliku z symbolami wieloznacznymi: określ folder lub ścieżkę pliku z symbolami wieloznacznymi w danym obszarze niezarządzanych usługi Lakehouse (w obszarze Pliki), aby filtrować foldery źródłowe lub pliki. Dozwolone symbole wieloznaczne to:
*
(pasuje do zera lub większej liczby znaków) i?
(pasuje do zera lub pojedynczego znaku). Użyj^
polecenia , aby uniknąć, jeśli nazwa folderu lub pliku ma symbol wieloznaczny lub znak ucieczki wewnątrz.Ścieżka folderu z symbolami wieloznacznymi: ścieżka do folderu w ramach danego kontenera. Jeśli chcesz użyć symbolu wieloznakowego do filtrowania folderu, pomiń to ustawienie i określ te informacje w ustawieniach źródła działań.
Nazwa pliku z symbolami wieloznacznymi: nazwa pliku w obszarze niezarządzanych usług Lakehouse (w obszarze Pliki) i ścieżka folderu.
Lista plików: wskazuje, aby skopiować dany zestaw plików.
- Ścieżka folderu: wskazuje folder zawierający pliki, które chcesz skopiować.
- Ścieżka do listy plików: wskazuje plik tekstowy zawierający listę plików, które chcesz skopiować, jeden plik na wiersz, czyli ścieżkę względną do skonfigurowanej ścieżki pliku.
Rekursywnie: wskazuje, czy dane są odczytywane rekursywnie z podfolderów, czy tylko z określonego folderu. Jeśli to ustawienie jest włączone, wszystkie pliki w folderze wejściowym i jego podfolderach są przetwarzane rekursywnie. Ta właściwość nie ma zastosowania podczas konfigurowania typu ścieżki pliku jako Listy plików.
Format pliku: wybierz format pliku z listy rozwijanej. Wybierz przycisk Ustawienia, aby skonfigurować format pliku. Aby uzyskać szczegółowe informacje, zobacz artykuły w obsługiwanym formacie .
W obszarze Zaawansowane można określić następujące pola:
- Filtruj według ostatniej modyfikacji: pliki są filtrowane na podstawie dat ostatniej modyfikacji. Ta właściwość nie ma zastosowania podczas konfigurowania typu ścieżki pliku jako Listy plików.
- Godzina rozpoczęcia: pliki są wybierane, jeśli ich czas ostatniej modyfikacji jest większy lub równy skonfigurowanemu czasowi.
- Godzina zakończenia: pliki są wybierane, jeśli czas ostatniej modyfikacji jest krótszy niż skonfigurowany czas.
- Włącz odnajdywanie partycji: w przypadku plików podzielonych na partycje określ, czy analizować partycje ze ścieżki pliku i dodać je jako dodatkowe kolumny źródłowe.
- Ścieżka główna partycji: po włączeniu odnajdywania partycji określ bezwzględną ścieżkę główną, aby odczytywać podzielone na partycje foldery jako kolumny danych.
- Maksymalna liczba połączeń współbieżnych: wskazuje górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Określ wartość tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne.
- Filtruj według ostatniej modyfikacji: pliki są filtrowane na podstawie dat ostatniej modyfikacji. Ta właściwość nie ma zastosowania podczas konfigurowania typu ścieżki pliku jako Listy plików.
- W przypadku wybrania pozycji Tabele:
Element docelowy
Następujące właściwości są obsługiwane dla usługi Lakehouse na karcie Miejsce docelowe działania kopiowania.
Wymagane są następujące właściwości:
Typ magazynu danych: wybierz pozycję Obszar roboczy.
Typ magazynu danych obszaru roboczego: wybierz pozycję Lakehouse z listy typów magazynu danych.
Lakehouse: wybierz istniejącą usługę Lakehouse z obszaru roboczego. Jeśli żadna z nich nie istnieje, utwórz nową usługę Lakehouse, wybierając pozycję Nowy. Jeśli używasz opcji Dodaj zawartość dynamiczną, aby określić usługę Lakehouse, dodaj parametr i określ identyfikator obiektu Lakehouse jako wartość parametru. Aby uzyskać identyfikator obiektu lakehouse, otwórz usługę Lakehouse w obszarze roboczym, a identyfikator znajduje się po
/lakehouses/
w adresie URL.Folder główny: wybierz pozycję Tabele lub pliki, które wskazują wirtualny widok obszaru zarządzanego lub niezarządzanego w jeziorze. Aby uzyskać więcej informacji, zapoznaj się z wprowadzeniem do usługi Lakehouse.
W przypadku wybrania pozycji Tabele:
Nazwa tabeli: wybierz istniejącą tabelę z listy tabel lub określ nazwę tabeli jako miejsce docelowe.
W obszarze Zaawansowane można określić następujące pola:
- Maksymalna liczba wierszy na plik: określ maksymalną liczbę wierszy na plik podczas zapisywania danych w usłudze Lakehouse.
- Akcje tabeli: określ operację dla wybranej tabeli.
- Dołączanie: Dołączanie nowych wartości do istniejącej tabeli.
- Zastąp: zastąp istniejące dane i schemat w tabeli przy użyciu nowych wartości. Jeśli ta operacja jest zaznaczona, możesz włączyć partycję w tabeli docelowej:
- Włącz partycję: ten wybór umożliwia tworzenie partycji w strukturze folderów na podstawie jednej lub wielu kolumn. Każda unikatowa wartość kolumny (para) to nowa partycja. Na przykład "year=2000/month=01/file". Ten wybór obsługuje tryb tylko do wstawiania i wymaga pustego katalogu w miejscu docelowym.
- Nazwa kolumny partycji: wybierz z kolumn docelowych w mapowaniu schematów. Obsługiwane typy danych to ciąg, liczba całkowita, wartość logiczna i data/godzina. Format uwzględnia ustawienia konwersji typów na karcie Mapowanie .
- Włącz partycję: ten wybór umożliwia tworzenie partycji w strukturze folderów na podstawie jednej lub wielu kolumn. Każda unikatowa wartość kolumny (para) to nowa partycja. Na przykład "year=2000/month=01/file". Ten wybór obsługuje tryb tylko do wstawiania i wymaga pustego katalogu w miejscu docelowym.
- Maksymalna liczba połączeń współbieżnych: górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Określ wartość tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne.
W przypadku wybrania pozycji Pliki:
Ścieżka pliku: wybierz pozycję Przeglądaj , aby wybrać plik, który chcesz skopiować, lub wypełnij ścieżkę ręcznie.
Format pliku: wybierz format pliku z listy rozwijanej. Wybierz Ustawienia, aby skonfigurować format pliku. Aby uzyskać szczegółowe informacje, zobacz artykuły w obsługiwanym formacie .
W obszarze Zaawansowane można określić następujące pola:
Zachowanie kopiowania: definiuje zachowanie kopiowania, gdy źródłem są pliki z magazynu danych opartego na plikach. Możesz wybrać opcję Dodaj zawartość dynamiczną, Brak, Hierarchia spłaszczania lub Zachowaj hierarchię jako zachowanie kopiowania . Konfiguracja każdego ustawienia to:
Dodaj zawartość dynamiczną: aby określić wyrażenie dla wartości właściwości, wybierz pozycję Dodaj zawartość dynamiczną. To pole otwiera konstruktora wyrażeń, w którym można tworzyć wyrażenia z obsługiwanych zmiennych systemowych, danych wyjściowych działań, funkcji i zmiennych lub parametrów określonych przez użytkownika. Aby uzyskać więcej informacji na temat języka wyrażeń, zobacz Wyrażenia i funkcje.
Brak: wybierz ten wybór, aby nie używać żadnego zachowania kopiowania.
Hierarchia spłaszczana: wszystkie pliki z folderu źródłowego znajdują się na pierwszym poziomie folderu docelowego. Pliki docelowe mają automatycznie wygenerowane nazwy.
Zachowaj hierarchię: zachowuje hierarchię plików w folderze docelowym. Ścieżka względna pliku źródłowego do folderu źródłowego jest identyczna ze ścieżką względną pliku docelowego do folderu docelowego.
Maksymalna liczba połączeń współbieżnych: górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Określ wartość tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne.
Rozmiar bloku (MB): określ rozmiar bloku w MB podczas zapisywania danych w usłudze Lakehouse. Dozwolona wartość wynosi od 4 MB do 100 MB.
Metadane: ustaw niestandardowe metadane podczas kopiowania do docelowego magazynu danych. Każdy obiekt w tablicy
metadata
reprezentuje dodatkową kolumnę. Elementname
definiuje nazwę klucza metadanych ivalue
wskazuje wartość danych tego klucza. Jeśli jest używana funkcja zachowania atrybutów, określone metadane będą union/overwrite z metadanymi pliku źródłowego. Dozwolone wartości danych to:
Mapowanie
W przypadku konfiguracji karty Mapowanie , jeśli nie zastosujesz tabeli Lakehouse jako docelowego magazynu danych, przejdź do pozycji Mapowanie.
Jeśli zastosujesz tabelę Lakehouse jako docelowy magazyn danych, z wyjątkiem konfiguracji w obszarze Mapowanie, możesz edytować typ kolumn docelowych. Po wybraniu pozycji Importuj schematy można określić typ kolumny w miejscu docelowym.
Na przykład typ kolumny PersonID w źródle jest int i można zmienić go na typ ciągu podczas mapowania na kolumnę docelową.
Uwaga
Edytowanie typu docelowego nie jest obecnie obsługiwane, gdy źródło jest typem dziesiętny.
Jeśli wybierzesz plik binarny jako format pliku, mapowanie nie jest obsługiwane.
Ustawienia
Aby uzyskać konfigurację karty Ustawienia, przejdź do Ustawienia.
Podsumowanie tabeli
Poniższe tabele zawierają więcej informacji na temat działania kopiowania w usłudze Lakehouse.
Informacje źródłowe
Nazwa/nazwisko | Opis | Wartość | Wymagania | Właściwość skryptu JSON |
---|---|---|---|---|
Typ magazynu danych | Typ magazynu danych. | Workspace | Tak | / |
Typ magazynu danych obszaru roboczego | Sekcja do wybrania typu magazynu danych obszaru roboczego. | Lakehouse | Tak | type |
Lakehouse | Lakehouse, którego używasz jako źródła. | <twoja usługa Lakehouse> | Tak | workspaceId artifactId |
Folder główny | Typ folderu głównego. | * Tabele * Pliki |
Nie. | Rootfolder: Tabela lub pliki |
Nazwa tabeli | Nazwa tabeli do odczytywania danych. | <nazwa tabeli> | Tak po wybraniu pozycji Tabele w folderze głównym | Tabeli (w obszarze typeProperties ->source ->typeProperties ) |
Sygnatura czasowa | Sygnatura czasowa do wykonywania zapytań względem starszej migawki. | <Sygnatury czasowej> | Nie. | timestampAsOf |
Wersja | Wersja do wykonywania zapytań względem starszej migawki. | <version> | Nie. | versionAsOf |
Dodatkowe kolumny | Dodatkowe kolumny danych do przechowywania ścieżki względnej lub wartości statycznej plików źródłowych. Wyrażenie jest obsługiwane w przypadku tych ostatnich. | *Nazwa *Wartość |
Nie. | additionalColumns: *Nazwa *Wartość |
Typ ścieżki pliku | Typ używanej ścieżki pliku. | * Ścieżka pliku * Ścieżka pliku z symbolami wieloznacznymi * Lista plików |
Tak | / |
Ścieżka pliku | Skopiuj ze ścieżki do folderu/pliku w źródłowym magazynie danych. Zastosuj podczas wybierania ścieżki pliku w polu Typ ścieżki pliku. | <ścieżka pliku> | Tak podczas wybierania ścieżki pliku | *Folderpath *Pod nazwą |
Ścieżki z symbolami wieloznacznymi | Ścieżka folderu z symbolami wieloznacznymi w magazynie danych źródłowych skonfigurowanym do filtrowania folderów źródłowych. Zastosuj podczas wybierania ścieżki pliku symbolu wieloznakowego w polu Typ ścieżki pliku. | <ścieżki wieloznaczne> | Tak podczas wybierania ścieżki pliku z symbolami wieloznacznymi | * symbol wieloznacznyFolderPath * symbol wieloznacznyFileName |
Ścieżka folderu | Wskazuje folder zawierający pliki, które chcesz skopiować. Zastosuj podczas wybierania pozycji Lista plików w typie ścieżki pliku. | <ścieżka folderu> | Nie. | folderPath |
Ścieżka do listy plików | Wskazuje, aby skopiować dany zestaw plików. Wskaż plik tekstowy zawierający listę plików, które chcesz skopiować, jeden plik na wiersz, który jest ścieżką względną do skonfigurowanej ścieżki. Zastosuj podczas wybierania pozycji Lista plików w typie ścieżki pliku. | <ścieżka do listy plików> | Nie. | fileListPath |
Rekursywnie | Przetwarzaj wszystkie pliki w folderze wejściowym i jego podfolderach rekursywnie lub tylko te w wybranym folderze. To ustawienie jest wyłączone po wybraniu pojedynczego pliku. | zaznacz lub usuń zaznaczenie | Nie. | Cykliczne: prawda lub fałsz |
Format pliku | Format używanego pliku. | <format pliku> | Tak | type (w obszarze formatSettings ):DelimitedTextRead Ustawienia |
Filtruj według ostatniej modyfikacji | Pliki o ostatniej modyfikacji w zakresie [Godzina rozpoczęcia, Godzina zakończenia) będą filtrowane pod kątem dalszego przetwarzania. Czas zostanie zastosowany do strefy czasowej UTC w formacie "rrrr-mm-ddThh:mm:ss.fffZ". Tę właściwość można pominąć, co oznacza, że nie zostanie zastosowany filtr atrybutu pliku. Ta właściwość nie ma zastosowania podczas konfigurowania typu ścieżki pliku jako Listy plików. |
* Godzina rozpoczęcia * Godzina zakończenia |
Nie. | modifiedDatetimeStart modifiedDatetimeEnd |
Włączanie odnajdywania partycji | Czy przeanalizować partycje ze ścieżki pliku i dodać je jako dodatkowe kolumny źródłowe. | Wybrane lub niezaznaczone | Nie. | enablePartitionDiscovery: true lub false (wartość domyślna) |
Ścieżka główna partycji | Ścieżka główna partycji bezwzględnej do odczytu folderów podzielonych na partycje jako kolumny danych. | <ścieżka główna partycji> | Nie. | partitionRootPath |
Maksymalna liczba połączeń współbieżnych | Górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Wartość jest potrzebna tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne. | <maksymalna liczba połączeń współbieżnych> | Nie. | maxConcurrent Połączenie ions |
Informacje o lokalizacji docelowej
Nazwa/nazwisko | Opis | Wartość | Wymagania | Właściwość skryptu JSON |
---|---|---|---|---|
Typ magazynu danych | Typ magazynu danych. | Workspace | Tak | / |
Typ magazynu danych obszaru roboczego | Sekcja do wybrania typu magazynu danych obszaru roboczego. | Lakehouse | Tak | type |
Lakehouse | Lakehouse, którego używasz jako miejsca docelowego. | <twoja usługa Lakehouse> | Tak | workspaceId artifactId |
Folder główny | Typ folderu głównego. | * Tabele * Pliki |
Tak | Rootfolder: Tabela lub pliki |
Nazwa tabeli | Nazwa tabeli, do której chcesz zapisywać dane. | <nazwa tabeli> | Tak po wybraniu pozycji Tabele w folderze głównym | Tabeli (w obszarze typeProperties ->sink ->typeProperties ) |
Maksymalna liczba wierszy na plik | Podczas zapisywania danych w folderze można wybrać zapisywanie w wielu plikach i określić maksymalną liczbę wierszy na plik. | <maksymalna liczba wierszy na flie> | Nie. | maxRowsPerFile |
Akcja tabeli | Dołącz nowe wartości do istniejącej tabeli lub zastąp istniejące dane i schemat w tabeli przy użyciu nowych wartości. | * Dołączanie * Zastępowanie |
Nie. | tableActionOption: Dołączanie lub zastępowanie |
Maksymalna liczba połączeń współbieżnych | Górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Określ wartość tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne. | <maksymalna liczba połączeń współbieżnych> | Nie. | maxConcurrent Połączenie ions |
Ścieżka pliku | Zapisz dane w ścieżce do folderu/pliku w docelowym magazynie danych. | <ścieżka pliku> | Nie. | *Folderpath *Pod nazwą |
Format pliku | Format używanego pliku. | <format pliku> | Tak | type (w obszarze formatSettings ):DelimitedTextWrite Ustawienia |
Zachowanie kopiowania | Zachowanie kopiowania zdefiniowane, gdy źródłem są pliki z magazynu danych opartego na plikach. | * Dodawanie zawartości dynamicznej * Brak * Hierarchia spłaszczana * Zachowaj hierarchię |
Nie. | copyBehavior: * FlattenHierarchy * PreserveHierarchy |
Rozmiar bloku (MB) | Rozmiar bloku w MB używany do zapisywania danych w usłudze Lakehouse. Dozwolona wartość wynosi od 4 MB do 100 MB. | <rozmiar bloku> | Nie. | blockSizeInMB |
Metadane | Niestandardowy zestaw metadanych podczas kopiowania do miejsca docelowego. | * $$LASTMODIFIED *Wyrażenie * Wartość statyczna |
Nie. | metadane |
Następne kroki
Opinia
Prześlij i wyświetl opinię dla