Konfigurowanie usługi Azure Data Lake Storage Gen2 w działaniu kopiowania

W tym artykule opisano sposób używania działania kopiowania w potoku danych do kopiowania danych z i do usługi Azure Data Lake Storage Gen2.

Obsługiwany format

Usługa Azure Data Lake Storage Gen2 obsługuje następujące formaty plików. Zapoznaj się z każdym artykułem, aby zapoznać się z ustawieniami opartymi na formacie.

Obsługiwana konfiguracja

W przypadku konfiguracji każdej karty w działaniu kopiowania przejdź odpowiednio do poniższych sekcji.

Ogólne

Zapoznaj się ze wskazówkami dotyczącymi ustawień ogólnych, aby skonfigurować kartę Ustawienia ogólne.

Lokalizacja źródłowa

Następujące właściwości są obsługiwane dla usługi Azure Data Lake Storage Gen2 na karcie Źródło działania kopiowania.

Screenshot showing source tab.

Wymaganenastępujące właściwości:

  • Typ magazynu danych: wybierz pozycję Zewnętrzne.
  • Połączenie ion: wybierz połączenie usługi Azure Data Lake Storage Gen2 z listy połączeń.
  • Ścieżka pliku: wybierz pozycję Przeglądaj , aby wybrać plik, który chcesz skopiować, lub wypełnij ścieżkę ręcznie.
  • Ustawienia pliku: wybierz pozycję Ustawienia pliku, aby skonfigurować format pliku. Aby uzyskać szczegółowe informacje, zobacz Ustawienia różnych formatów plików.

W obszarze Zaawansowane można określić następujące pola:

  • Typ ścieżki pliku: możesz wybrać ścieżkę pliku, ścieżkę pliku z symbolem wieloznacznymi lub listę plików jako typ ścieżki pliku. Konfiguracja każdego z tych ustawień to:

    • Ścieżka pliku: w przypadku wybrania tego typu dane można skopiować z określonego wcześniej kontenera lub folderu/ścieżki pliku.

    • Ścieżka pliku z symbolami wieloznacznymi: określ folder lub ścieżkę pliku z symbolami wieloznacznymi w danym kontenerze obiektów blob, aby filtrować foldery źródłowe lub pliki.

      Dozwolone symbole wieloznaczne to: * (pasuje do zera lub większej liczby znaków) i ? (pasuje do zera lub pojedynczego znaku). Użyj ^ polecenia , aby uniknąć, jeśli nazwa folderu ma symbol wieloznaczny lub znak ucieczki wewnątrz. Aby uzyskać więcej przykładów, przejdź do przykładów filtru folderów i plików.

      Screenshot showing wildcard file path.

      Ścieżka folderu z symbolami wieloznacznymi: określ ścieżkę folderu z symbolami wieloznacznymi w danym kontenerze, aby filtrować foldery źródłowe.

      Nazwa pliku z symbolami wieloznacznymi: określ nazwę pliku z symbolami wieloznacznymi w ramach danego kontenera i ścieżki folderu (lub ścieżki folderu z symbolami wieloznacznymi) do filtrowania plików źródłowych.

    • Lista plików: wskazuje, że chcesz skopiować dany zestaw plików. Na liście Ścieżka do pliku wskaż plik tekstowy zawierający listę plików, które chcesz skopiować, jeden plik na wiersz, który jest ścieżką względną do ścieżki.

      Jeśli używasz tej opcji, nie określaj nazwy pliku. Aby uzyskać więcej przykładów, przejdź do pozycji Przykłady listy plików.

      Screenshot showing path to file list.

  • Rekursywnie: jeśli to pole wyboru jest zaznaczone, wszystkie pliki w folderze wejściowym i jego podfoldery są przetwarzane rekursywnie. Jeśli usuniesz zaznaczenie pola wyboru, zostaną przetworzone tylko te w wybranym folderze. To ustawienie jest wyłączone po wybraniu pojedynczego pliku.

  • Usuń pliki po zakończeniu: jeśli to pole wyboru jest zaznaczone, pliki binarne zostaną usunięte z magazynu źródłowego po pomyślnym przeniesieniu do magazynu docelowego. Usunięcie pliku jest wykonywane według pliku, więc gdy działanie kopiowania nie powiedzie się, możesz stwierdzić, że niektóre pliki zostały już skopiowane do miejsca docelowego i usunięte ze źródła, podczas gdy inne nadal pozostają w magazynie źródłowym.

    Uwaga

    Ta właściwość jest prawidłowa tylko w scenariuszu kopiowania plików binarnych.

  • Maksymalna liczba połączeń współbieżnych: ta właściwość wskazuje górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Określ wartość tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne.

Element docelowy

Następujące właściwości są obsługiwane dla usługi Azure Data Lake Storage Gen2 na karcie Miejsce docelowe działania kopiowania.

Screenshot showing destination tab.

Wymaganenastępujące właściwości:

  • Typ magazynu danych: wybierz pozycję Zewnętrzne.
  • Połączenie ion: wybierz połączenie usługi Azure Data Lake Storage Gen2 z listy połączeń.
  • Ścieżka pliku: wybierz pozycję Przeglądaj , aby wybrać plik, który chcesz skopiować lub wypełnić ścieżkę ręcznie.
  • Ustawienia pliku: wybierz pozycję Ustawienia pliku, aby skonfigurować format pliku. Aby uzyskać szczegółowe informacje, zobacz Ustawienia różnych formatów plików.

W obszarze Zaawansowane można określić następujące pola:

  • Zachowanie kopiowania: definiuje zachowanie kopiowania, gdy źródłem są pliki z magazynu danych opartego na plikach. Z listy rozwijanej możesz wybrać pozycję Dodaj zawartość dynamiczną, Brak, Hierarchia spłaszczania lub Zachowaj hierarchię .

    Screenshot showing copy behavior.

    • Dodaj zawartość dynamiczną: otwórz okienko Dodawanie zawartości dynamicznej. Ta akcja powoduje otwarcie konstruktora wyrażeń, w którym można tworzyć wyrażenia z obsługiwanych zmiennych systemowych, danych wyjściowych działań, funkcji i zmiennych lub parametrów określonych przez użytkownika. Aby uzyskać informacje na temat języka wyrażeń, przejdź do pozycji Wyrażenia i funkcje.
    • Brak: wybierz tę opcję, aby nie używać żadnego zachowania kopiowania.
    • Hierarchia spłaszczana: wszystkie pliki z folderu źródłowego znajdują się na pierwszym poziomie folderu docelowego. Pliki docelowe mają automatycznie wygenerowane nazwy.
    • Zachowaj hierarchię: zachowuje hierarchię plików w folderze docelowym. Względna ścieżka pliku źródłowego do folderu źródłowego jest identyczna ze względną ścieżką pliku docelowego do folderu docelowego.
  • Maksymalna liczba połączeń współbieżnych: górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Określ wartość tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne.

  • Rozmiar bloku (MB): określ rozmiar bloku w megabajtach używany do zapisywania danych w blokowych obiektach blob. Więcej informacji: Blokowe obiekty blob

  • Metadane: ustaw niestandardowe metadane podczas kopiowania do miejsca docelowego. Każdy obiekt w tablicy metadata reprezentuje dodatkową kolumnę. Element name definiuje nazwę klucza metadanych i value wskazuje wartość danych tego klucza. Jeśli jest używana funkcja zachowywania atrybutów, określone metadane będą union/overwrite z metadanymi pliku źródłowego.

    Dozwolone wartości danych to:

    • $$LASTMODIFIED: zmienna zarezerwowana wskazuje czas ostatniej modyfikacji plików źródłowych. Zastosuj do źródła opartego na plikach tylko w formacie binarnym.
    • Expression
    • Wartość statyczna

    Screenshot showing metadata.

Mapowanie

W obszarze Konfiguracja karty Mapowanie przejdź do tematu Konfigurowanie mapowań na karcie mapowania. Jeśli wybierzesz plik binarny jako format pliku, mapowanie nie jest obsługiwane.

Ustawienia

W przypadku konfiguracji karty Ustawienia przejdź do sekcji Konfigurowanie innych ustawień na karcie ustawienia.

Podsumowanie tabeli

Poniższe tabele zawierają więcej informacji o działaniu kopiowania w usłudze Azure Data Lake Storage Gen2.

Lokalizacja źródłowa

Nazwa/nazwisko Opis Wartość Wymagania Właściwość skryptu JSON
Typ magazynu danych Typ magazynu danych. Zewnętrzne Tak type
Połączenie Połączenie ze źródłowym magazynem danych. <połączenie> Tak połączenie
Ścieżka pliku Ścieżka pliku danych źródłowych. <ścieżka pliku źródła > Tak Kontenera
fileName
Typ ścieżki pliku Typ ścieżki pliku, którego chcesz użyć. • Ścieżka pliku
•Prefiks
• Ścieżka folderu z symbolami wieloznacznymi, nazwa pliku z symbolami wieloznacznymi
•Lista plików
Nie.
•Prefiks
• symbol wieloznacznyFolderPath, symbol wieloznacznyFileName
• fileListPath
Rekursywnie Przetwarzaj wszystkie pliki w folderze wejściowym i jego podfolderach rekursywnie lub tylko te w wybranym folderze. To ustawienie jest wyłączone po wybraniu pojedynczego pliku. Zaznaczone lub usuń zaznaczenie Nie. Cykliczne
Usuwanie plików po zakończeniu Pliki w źródłowym magazynie danych zostaną usunięte bezpośrednio po przeniesieniu do magazynu docelowego. Usunięcie pliku jest na plik, więc gdy działanie kopiowania zakończy się niepowodzeniem, zauważysz, że niektóre pliki zostały już skopiowane do miejsca docelowego i usunięte ze źródła, podczas gdy inne są nadal w magazynie źródłowym. Zaznaczone lub usuń zaznaczenie Nie. deleteFilesAfterCompletion
Maksymalna liczba połączeń współbieżnych Górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Określ wartość tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne. <maksymalna liczba połączeń współbieżnych> Nie. maxConcurrent Połączenie ions

Element docelowy

Nazwa/nazwisko Opis Wartość Wymagania Właściwość skryptu JSON
Typ magazynu danych Typ magazynu danych. Zewnętrzne Tak type
Połączenie Połączenie z docelowym magazynem danych. <połączenie> Tak połączenie
Ścieżka pliku Ścieżka pliku danych docelowych. Ścieżka pliku źródła Tak Kontenera
fileName
Zachowanie kopiowania Definiuje zachowanie kopiowania, gdy źródłem są pliki z magazynu danych opartego na plikach. •Brak
• Dodawanie zawartości dynamicznej
• Hierarchia spłaszczana
• Zachowaj hierarchię
Nie. copyBehavior
Maksymalna liczba połączeń współbieżnych Górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Określ wartość tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne. <maksymalna liczba połączeń współbieżnych> Nie. maxConcurrent Połączenie ions
Rozmiar bloku (MB) Określ rozmiar bloku w MB podczas zapisywania danych w usłudze Azure Data Lake Storage Gen2. Dozwolona wartość wynosi od 4 MB do 100 MB. <rozmiar bloku> Nie. blockSizeInMB
Metadane Ustaw metadane niestandardowe podczas kopiowania do miejsca docelowego. $$LASTMODIFIED
•Wyrażenie
• Wartość statyczna
Nie. metadane

Następne kroki