Konfigurowanie usługi Azure Data Lake Storage Gen2 w działaniu kopiowania
W tym artykule opisano sposób używania działania kopiowania w potoku danych do kopiowania danych z i do usługi Azure Data Lake Storage Gen2.
Obsługiwany format
Usługa Azure Data Lake Storage Gen2 obsługuje następujące formaty plików. Zapoznaj się z każdym artykułem, aby zapoznać się z ustawieniami opartymi na formacie.
- Format Avro
- Format binarny
- Format tekstu rozdzielanego
- Format programu Excel
- Format JSON
- Format ORC
- Format Parquet
- Format XML
Obsługiwana konfiguracja
W przypadku konfiguracji każdej karty w działaniu kopiowania przejdź odpowiednio do poniższych sekcji.
Ogólne
Zapoznaj się ze wskazówkami dotyczącymi ustawień ogólnych, aby skonfigurować kartę Ustawienia ogólne.
Lokalizacja źródłowa
Następujące właściwości są obsługiwane dla usługi Azure Data Lake Storage Gen2 na karcie Źródło działania kopiowania.
Wymagane są następujące właściwości:
- Typ magazynu danych: wybierz pozycję Zewnętrzne.
- Połączenie ion: wybierz połączenie usługi Azure Data Lake Storage Gen2 z listy połączeń.
- Ścieżka pliku: wybierz pozycję Przeglądaj , aby wybrać plik, który chcesz skopiować, lub wypełnij ścieżkę ręcznie.
- Ustawienia pliku: wybierz pozycję Ustawienia pliku, aby skonfigurować format pliku. Aby uzyskać szczegółowe informacje, zobacz Ustawienia różnych formatów plików.
W obszarze Zaawansowane można określić następujące pola:
Typ ścieżki pliku: możesz wybrać ścieżkę pliku, ścieżkę pliku z symbolem wieloznacznymi lub listę plików jako typ ścieżki pliku. Konfiguracja każdego z tych ustawień to:
Ścieżka pliku: w przypadku wybrania tego typu dane można skopiować z określonego wcześniej kontenera lub folderu/ścieżki pliku.
Ścieżka pliku z symbolami wieloznacznymi: określ folder lub ścieżkę pliku z symbolami wieloznacznymi w danym kontenerze obiektów blob, aby filtrować foldery źródłowe lub pliki.
Dozwolone symbole wieloznaczne to:
*
(pasuje do zera lub większej liczby znaków) i?
(pasuje do zera lub pojedynczego znaku). Użyj^
polecenia , aby uniknąć, jeśli nazwa folderu ma symbol wieloznaczny lub znak ucieczki wewnątrz. Aby uzyskać więcej przykładów, przejdź do przykładów filtru folderów i plików.Ścieżka folderu z symbolami wieloznacznymi: określ ścieżkę folderu z symbolami wieloznacznymi w danym kontenerze, aby filtrować foldery źródłowe.
Nazwa pliku z symbolami wieloznacznymi: określ nazwę pliku z symbolami wieloznacznymi w ramach danego kontenera i ścieżki folderu (lub ścieżki folderu z symbolami wieloznacznymi) do filtrowania plików źródłowych.
Lista plików: wskazuje, że chcesz skopiować dany zestaw plików. Na liście Ścieżka do pliku wskaż plik tekstowy zawierający listę plików, które chcesz skopiować, jeden plik na wiersz, który jest ścieżką względną do ścieżki.
Jeśli używasz tej opcji, nie określaj nazwy pliku. Aby uzyskać więcej przykładów, przejdź do pozycji Przykłady listy plików.
Rekursywnie: jeśli to pole wyboru jest zaznaczone, wszystkie pliki w folderze wejściowym i jego podfoldery są przetwarzane rekursywnie. Jeśli usuniesz zaznaczenie pola wyboru, zostaną przetworzone tylko te w wybranym folderze. To ustawienie jest wyłączone po wybraniu pojedynczego pliku.
Usuń pliki po zakończeniu: jeśli to pole wyboru jest zaznaczone, pliki binarne zostaną usunięte z magazynu źródłowego po pomyślnym przeniesieniu do magazynu docelowego. Usunięcie pliku jest wykonywane według pliku, więc gdy działanie kopiowania nie powiedzie się, możesz stwierdzić, że niektóre pliki zostały już skopiowane do miejsca docelowego i usunięte ze źródła, podczas gdy inne nadal pozostają w magazynie źródłowym.
Uwaga
Ta właściwość jest prawidłowa tylko w scenariuszu kopiowania plików binarnych.
Maksymalna liczba połączeń współbieżnych: ta właściwość wskazuje górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Określ wartość tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne.
Element docelowy
Następujące właściwości są obsługiwane dla usługi Azure Data Lake Storage Gen2 na karcie Miejsce docelowe działania kopiowania.
Wymagane są następujące właściwości:
- Typ magazynu danych: wybierz pozycję Zewnętrzne.
- Połączenie ion: wybierz połączenie usługi Azure Data Lake Storage Gen2 z listy połączeń.
- Ścieżka pliku: wybierz pozycję Przeglądaj , aby wybrać plik, który chcesz skopiować lub wypełnić ścieżkę ręcznie.
- Ustawienia pliku: wybierz pozycję Ustawienia pliku, aby skonfigurować format pliku. Aby uzyskać szczegółowe informacje, zobacz Ustawienia różnych formatów plików.
W obszarze Zaawansowane można określić następujące pola:
Zachowanie kopiowania: definiuje zachowanie kopiowania, gdy źródłem są pliki z magazynu danych opartego na plikach. Z listy rozwijanej możesz wybrać pozycję Dodaj zawartość dynamiczną, Brak, Hierarchia spłaszczania lub Zachowaj hierarchię .
- Dodaj zawartość dynamiczną: otwórz okienko Dodawanie zawartości dynamicznej. Ta akcja powoduje otwarcie konstruktora wyrażeń, w którym można tworzyć wyrażenia z obsługiwanych zmiennych systemowych, danych wyjściowych działań, funkcji i zmiennych lub parametrów określonych przez użytkownika. Aby uzyskać informacje na temat języka wyrażeń, przejdź do pozycji Wyrażenia i funkcje.
- Brak: wybierz tę opcję, aby nie używać żadnego zachowania kopiowania.
- Hierarchia spłaszczana: wszystkie pliki z folderu źródłowego znajdują się na pierwszym poziomie folderu docelowego. Pliki docelowe mają automatycznie wygenerowane nazwy.
- Zachowaj hierarchię: zachowuje hierarchię plików w folderze docelowym. Względna ścieżka pliku źródłowego do folderu źródłowego jest identyczna ze względną ścieżką pliku docelowego do folderu docelowego.
Maksymalna liczba połączeń współbieżnych: górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Określ wartość tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne.
Rozmiar bloku (MB): określ rozmiar bloku w megabajtach używany do zapisywania danych w blokowych obiektach blob. Więcej informacji: Blokowe obiekty blob
Metadane: ustaw niestandardowe metadane podczas kopiowania do miejsca docelowego. Każdy obiekt w tablicy
metadata
reprezentuje dodatkową kolumnę. Elementname
definiuje nazwę klucza metadanych ivalue
wskazuje wartość danych tego klucza. Jeśli jest używana funkcja zachowywania atrybutów, określone metadane będą union/overwrite z metadanymi pliku źródłowego.Dozwolone wartości danych to:
$$LASTMODIFIED
: zmienna zarezerwowana wskazuje czas ostatniej modyfikacji plików źródłowych. Zastosuj do źródła opartego na plikach tylko w formacie binarnym.- Expression
- Wartość statyczna
Mapowanie
W obszarze Konfiguracja karty Mapowanie przejdź do tematu Konfigurowanie mapowań na karcie mapowania. Jeśli wybierzesz plik binarny jako format pliku, mapowanie nie jest obsługiwane.
Ustawienia
W przypadku konfiguracji karty Ustawienia przejdź do sekcji Konfigurowanie innych ustawień na karcie ustawienia.
Podsumowanie tabeli
Poniższe tabele zawierają więcej informacji o działaniu kopiowania w usłudze Azure Data Lake Storage Gen2.
Lokalizacja źródłowa
Nazwa/nazwisko | Opis | Wartość | Wymagania | Właściwość skryptu JSON |
---|---|---|---|---|
Typ magazynu danych | Typ magazynu danych. | Zewnętrzne | Tak | type |
Połączenie | Połączenie ze źródłowym magazynem danych. | <połączenie> | Tak | połączenie |
Ścieżka pliku | Ścieżka pliku danych źródłowych. | <ścieżka pliku źródła > | Tak | Kontenera fileName |
Typ ścieżki pliku | Typ ścieżki pliku, którego chcesz użyć. | • Ścieżka pliku •Prefiks • Ścieżka folderu z symbolami wieloznacznymi, nazwa pliku z symbolami wieloznacznymi •Lista plików |
Nie. | •Prefiks • symbol wieloznacznyFolderPath, symbol wieloznacznyFileName • fileListPath |
Rekursywnie | Przetwarzaj wszystkie pliki w folderze wejściowym i jego podfolderach rekursywnie lub tylko te w wybranym folderze. To ustawienie jest wyłączone po wybraniu pojedynczego pliku. | Zaznaczone lub usuń zaznaczenie | Nie. | Cykliczne |
Usuwanie plików po zakończeniu | Pliki w źródłowym magazynie danych zostaną usunięte bezpośrednio po przeniesieniu do magazynu docelowego. Usunięcie pliku jest na plik, więc gdy działanie kopiowania zakończy się niepowodzeniem, zauważysz, że niektóre pliki zostały już skopiowane do miejsca docelowego i usunięte ze źródła, podczas gdy inne są nadal w magazynie źródłowym. | Zaznaczone lub usuń zaznaczenie | Nie. | deleteFilesAfterCompletion |
Maksymalna liczba połączeń współbieżnych | Górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Określ wartość tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne. | <maksymalna liczba połączeń współbieżnych> | Nie. | maxConcurrent Połączenie ions |
Element docelowy
Nazwa/nazwisko | Opis | Wartość | Wymagania | Właściwość skryptu JSON |
---|---|---|---|---|
Typ magazynu danych | Typ magazynu danych. | Zewnętrzne | Tak | type |
Połączenie | Połączenie z docelowym magazynem danych. | <połączenie> | Tak | połączenie |
Ścieżka pliku | Ścieżka pliku danych docelowych. | Ścieżka pliku źródła | Tak | Kontenera fileName |
Zachowanie kopiowania | Definiuje zachowanie kopiowania, gdy źródłem są pliki z magazynu danych opartego na plikach. | •Brak • Dodawanie zawartości dynamicznej • Hierarchia spłaszczana • Zachowaj hierarchię |
Nie. | copyBehavior |
Maksymalna liczba połączeń współbieżnych | Górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Określ wartość tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne. | <maksymalna liczba połączeń współbieżnych> | Nie. | maxConcurrent Połączenie ions |
Rozmiar bloku (MB) | Określ rozmiar bloku w MB podczas zapisywania danych w usłudze Azure Data Lake Storage Gen2. Dozwolona wartość wynosi od 4 MB do 100 MB. | <rozmiar bloku> | Nie. | blockSizeInMB |
Metadane | Ustaw metadane niestandardowe podczas kopiowania do miejsca docelowego. | • $$LASTMODIFIED •Wyrażenie • Wartość statyczna |
Nie. | metadane |
Następne kroki
Opinia
Prześlij i wyświetl opinię dla