Udostępnij za pośrednictwem


Konfigurowanie usługi Azure Data Lake Storage Gen2 w działaniu kopiowania

W tym artykule opisano sposób używania działania kopiowania w potoku danych do kopiowania danych z i do usługi Azure Data Lake Storage Gen2.

Obsługiwany format

Usługa Azure Data Lake Storage Gen2 obsługuje następujące formaty plików. Zapoznaj się z każdym artykułem, aby zapoznać się z ustawieniami opartymi na formacie.

Obsługiwana konfiguracja

W przypadku konfiguracji każdej karty w działaniu kopiowania przejdź odpowiednio do poniższych sekcji.

Ogólne

Zapoznaj się ze wskazówkami dotyczącymi ustawień ogólnych, aby skonfigurować kartę Ustawienia ogólne.

Źródło

Następujące właściwości są obsługiwane dla usługi Azure Data Lake Storage Gen2 na karcie Źródło działania kopiowania.

Screenshot showing source tab.

Wymaganenastępujące właściwości:

  • Typ magazynu danych: wybierz pozycję Zewnętrzne.

  • Połączenie ion: wybierz połączenie usługi Azure Data Lake Storage Gen2 z listy połączeń. Jeśli połączenie nie istnieje, utwórz nowe połączenie usługi Azure Data Lake Storage Gen2, wybierając pozycję Nowy.

  • typ Połączenie ion: wybierz pozycję Azure Data Lake Storage Gen2.

  • Typ ścieżki pliku: możesz wybrać ścieżkę pliku, ścieżkę pliku z symbolem wieloznacznymi lub listę plików jako typ ścieżki pliku. Konfiguracja każdego z tych ustawień to:

    • Ścieżka pliku: jeśli wybierzesz ten typ, dane można skopiować z określonego systemu plików lub ścieżki folderu/pliku określonego wcześniej.

    • Ścieżka pliku z symbolami wieloznacznymi: w przypadku wybrania tego typu określ ścieżki system plików i symbol wieloznaczny.

      • System plików: nazwa systemu plików usługi Azure Data Lake Storage Gen2.

      • Ścieżki z symbolami wieloznacznymi: określ folder lub ścieżkę pliku z symbolami wieloznacznymi w określonym systemie plików, aby filtrować foldery źródłowe lub pliki.

        Dozwolone symbole wieloznaczne to: * (pasuje do zera lub większej liczby znaków) i ? (pasuje do zera lub pojedynczego znaku). Użyj ^ polecenia , aby uniknąć, jeśli nazwa folderu ma symbol wieloznaczny lub znak ucieczki wewnątrz. Aby uzyskać więcej przykładów, przejdź do pozycji Folder i przykłady filtru plików.

        Screenshot showing wildcard file path.

        • Ścieżka folderu z symbolami wieloznacznymi: określ ścieżkę folderu z symbolami wieloznacznymi w określonym systemie plików, aby filtrować foldery źródłowe.

        • Nazwa pliku z symbolami wieloznacznymi: określ nazwę pliku z symbolami wieloznacznymi w ramach określonego systemu plików i ścieżki folderu (lub ścieżki folderu z symbolami wieloznacznymi), aby filtrować pliki źródłowe.

    • Lista plików: wskazuje, że chcesz skopiować dany zestaw plików. Określ ścieżkę folderu i ścieżkę do listy plików, aby wskazać plik tekstowy zawierający listę plików, które chcesz skopiować, jeden plik na wiersz, czyli ścieżkę względną do ścieżki. Aby uzyskać więcej przykładów, przejdź do pozycji Przykłady listy plików.

      Screenshot showing path to file list.

      • Ścieżka folderu: określ ścieżkę do folderu w określonym systemie plików. Jest to wymagane.

      • Ścieżka do listy plików: określ ścieżkę pliku tekstowego zawierającego listę plików, które chcesz skopiować.

  • Rekursywnie: określ, czy dane są odczytywane rekursywnie z podfolderów, czy tylko z określonego folderu. Należy pamiętać, że w przypadku wybrania opcji Rekursively i miejsce docelowe jest magazynem opartym na plikach, pusty folder lub podfolder nie jest kopiowany ani tworzony w miejscu docelowym. Ta właściwość jest domyślnie zaznaczona i nie ma zastosowania podczas konfigurowania ścieżki do listy plików.

  • Format pliku: wybierz format pliku zastosowany z listy rozwijanej. Wybierz Ustawienia, aby skonfigurować format pliku. Aby uzyskać szczegółowe informacje, zobacz artykuły w obsługiwanym formacie .

W obszarze Zaawansowane można określić następujące pola:

  • Filtruj według ostatniej modyfikacji: pliki są filtrowane na podstawie dat ostatniej modyfikacji. Ta właściwość nie ma zastosowania podczas konfigurowania typu ścieżki pliku jako Listy plików.

    • Godzina rozpoczęcia (UTC): pliki są wybierane, jeśli ich czas ostatniej modyfikacji jest większy lub równy skonfigurowanemu czasowi.

    • Godzina zakończenia (UTC): Pliki są wybierane, jeśli czas ostatniej modyfikacji jest krótszy niż skonfigurowany czas.

    Gdy godzina rozpoczęcia (UTC) ma wartość daty/godziny, ale godzina zakończenia (UTC) ma wartość NULL, oznacza to, że pliki, których ostatnio zmodyfikowany atrybut jest większy niż lub równy wartości daty/godziny, zostaną wybrane. Jeśli godzina zakończenia (UTC) ma wartość daty/godziny, ale godzina rozpoczęcia (UTC) ma wartość NULL, oznacza to, że pliki, których ostatnio zmodyfikowany atrybut jest mniejszy niż wartość daty/godziny, zostanie wybrana. Właściwości mogą mieć wartość NULL, co oznacza, że do danych nie zostanie zastosowany filtr atrybutu pliku.

  • Włącz odnajdywanie partycji: określ, czy przeanalizować partycje ze ścieżki pliku i dodać je jako dodatkowe kolumny źródłowe. Jest on domyślnie niezaznaczony i nie jest obsługiwany w przypadku korzystania z formatu pliku binarnego.

    • Ścieżka główna partycji: po włączeniu odnajdywania partycji określ bezwzględną ścieżkę główną, aby odczytywać podzielone na partycje foldery jako kolumny danych.

      Jeśli nie zostanie określony, domyślnie,

      • Jeśli używasz ścieżki pliku lub listy plików w źródle, ścieżka główna partycji jest ścieżką skonfigurowaną.
      • W przypadku używania filtru folderów wieloznacznych ścieżka główna partycji jest ścieżką podrzędną przed pierwszym symbolem wieloznacznymi.

      Na przykład przy założeniu, że ścieżka jest skonfigurowana jako root/folder/year=2020/month=08/day=27:

      • Jeśli określisz ścieżkę główną partycji jako root/folder/year=2020, działanie kopiowania wygeneruje dwa kolejne kolumny miesiąc i dzień z wartością "08" i "27" odpowiednio, oprócz kolumn wewnątrz plików.
      • Jeśli nie określono ścieżki głównej partycji, nie zostanie wygenerowana żadna dodatkowa kolumna.

    Screenshot showing partition discovery.

  • Maksymalna liczba połączeń współbieżnych: ta właściwość wskazuje górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Określ wartość tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne.

  • Dodatkowe kolumny: Dodaj dodatkowe kolumny danych, aby przechowywać ścieżkę względną plików źródłowych lub wartość statyczną. Wyrażenie jest obsługiwane w przypadku tych ostatnich.

Element docelowy

Następujące właściwości są obsługiwane dla usługi Azure Data Lake Storage Gen2 na karcie Miejsce docelowe działania kopiowania.

Screenshot showing destination tab.

Wymaganenastępujące właściwości:

  • Typ magazynu danych: wybierz pozycję Zewnętrzne.
  • Połączenie ion: wybierz połączenie usługi Azure Data Lake Storage Gen2 z listy połączeń. Jeśli połączenie nie istnieje, utwórz nowe połączenie usługi Azure Data Lake Storage Gen2, wybierając pozycję Nowy.
  • typ Połączenie ion: wybierz pozycję Azure Data Lake Storage Gen2.
  • Ścieżka pliku: wybierz pozycję Przeglądaj , aby wybrać plik, który chcesz skopiować lub wypełnić ścieżkę ręcznie.
  • Format pliku: wybierz format pliku zastosowany z listy rozwijanej. Wybierz Ustawienia, aby skonfigurować format pliku. Aby uzyskać szczegółowe informacje, zobacz artykuły w obsługiwanym formacie .

W obszarze Zaawansowane można określić następujące pola:

  • Zachowanie kopiowania: definiuje zachowanie kopiowania, gdy źródłem są pliki z magazynu danych opartego na plikach. Możesz wybrać zachowanie z listy rozwijanej.

    Screenshot showing copy behavior.

    • Hierarchia spłaszczana: wszystkie pliki z folderu źródłowego znajdują się na pierwszym poziomie folderu docelowego. Pliki docelowe mają automatycznie wygenerowane nazwy.
    • Scal pliki: scala wszystkie pliki z folderu źródłowego do jednego pliku. Jeśli określono nazwę pliku, scalona nazwa pliku jest określoną nazwą. W przeciwnym razie jest to automatycznie wygenerowana nazwa pliku.
    • Zachowaj hierarchię: zachowuje hierarchię plików w folderze docelowym. Względna ścieżka pliku źródłowego do folderu źródłowego jest identyczna ze względną ścieżką pliku docelowego do folderu docelowego.
  • Maksymalna liczba połączeń współbieżnych: górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Określ wartość tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne.

  • Rozmiar bloku (MB): określ rozmiar bloku w MB używany do zapisywania danych w usłudze Azure Data Lake Storage Gen2. Aby uzyskać więcej informacji, zobacz Blokowe obiekty blob. Dozwolona wartość wynosi od 4 MB do 100 MB.

    Domyślnie rozmiar bloku jest automatycznie określany na podstawie typu magazynu źródłowego i danych. W przypadku kopii niebinarnej do usługi Azure Data Lake Storage Gen2 domyślny rozmiar bloku wynosi 100 MB, tak aby mieścił się w danych o rozmiarze co najwyżej 4,75 TB. Może to nie być optymalne, gdy dane nie są duże. Można jawnie określić rozmiar bloku, podczas gdy upewnij się , że rozmiar bloku (MB)*50000 jest wystarczająco duży, aby przechowywać dane, w przeciwnym razie uruchomienie działania kopiowania zakończy się niepowodzeniem.

  • Metadane: ustaw niestandardowe metadane podczas kopiowania do miejsca docelowego. Każdy obiekt w tablicy metadata reprezentuje dodatkową kolumnę. Element name definiuje nazwę klucza metadanych i value wskazuje wartość danych tego klucza. Jeśli jest używana funkcja zachowywania atrybutów, określone metadane będą union/overwrite z metadanymi pliku źródłowego.

    Dozwolone wartości danych to:

    • $$LASTMODIFIED: zmienna zarezerwowana wskazuje czas ostatniej modyfikacji plików źródłowych. Zastosuj do źródła opartego na plikach tylko w formacie binarnym.
    • Expression
    • Wartość statyczna

    Screenshot showing metadata.

Mapowanie

W obszarze Konfiguracja karty Mapowanie przejdź do tematu Konfigurowanie mapowań na karcie mapowania. Jeśli wybierzesz plik binarny jako format pliku, mapowanie nie jest obsługiwane.

Ustawienia

W przypadku konfiguracji karty Ustawienia przejdź do sekcji Konfigurowanie innych ustawień na karcie ustawienia.

Podsumowanie tabeli

Poniższe tabele zawierają więcej informacji o działaniu kopiowania w usłudze Azure Data Lake Storage Gen2.

Informacje źródłowe

Nazwa/nazwisko Opis Wartość Wymagania Właściwość skryptu JSON
Typ magazynu danych Typ magazynu danych. Zewnętrzne Tak /
Połączenie Połączenie ze źródłowym magazynem danych. <połączenie usługi Azure Data Lake Storage Gen2> Tak połączenie
Connection type (Typ połączenia) Typ połączenia. Wybierz pozycję Azure Data Lake Storage Gen2. Azure Data Lake Storage Gen2 Tak /
Typ ścieżki pliku Typ ścieżki pliku, którego chcesz użyć. • Ścieżka pliku
• Ścieżka folderu z symbolami wieloznacznymi, nazwa pliku z symbolami wieloznacznymi
•Lista plików
Tak • folderPath, fileName, fileSystem
• symbol wieloznacznyFolderPath, symbol wieloznacznyFileName, fileSystem
• folderPath, fileName, fileListPath
Rekursywnie Wskazuje, czy dane są odczytywane rekursywnie z podfolderów, czy tylko z określonego folderu. Należy pamiętać, że w przypadku wybrania opcji Rekursively i miejsce docelowe jest magazynem opartym na plikach, pusty folder lub podfolder nie jest kopiowany ani tworzony w miejscu docelowym. Ta właściwość nie ma zastosowania podczas konfigurowania ścieżki do listy plików. wybrane (domyślne) lub usuń zaznaczenie Nie. Cykliczne
Filtruj według ostatniej modyfikacji Pliki o ostatniej modyfikacji w zakresie [Godzina rozpoczęcia, Godzina zakończenia) będą filtrowane pod kątem dalszego przetwarzania. Czas zostanie zastosowany do strefy czasowej UTC w formacie yyyy-mm-ddThh:mm:ss.fffZ. Te właściwości można pominąć, co oznacza, że nie zostanie zastosowany filtr atrybutu pliku. Ta właściwość nie ma zastosowania podczas konfigurowania typu ścieżki pliku jako Listy plików. datetime Nie. modifiedDatetimeStart
modifiedDatetimeEnd
Włączanie odnajdywania partycji Wskazuje, czy należy przeanalizować partycje ze ścieżki pliku i dodać je jako dodatkowe kolumny źródłowe. wybrane lub niezaznaczone (ustawienie domyślne) Nie. enablePartitionDiscovery:
true lub false (wartość domyślna)
Ścieżka główna partycji Po włączeniu odnajdywania partycji określ bezwzględną ścieżkę katalogu głównego, aby odczytywać foldery podzielone na partycje jako kolumny danych. < ścieżka główna partycji > Nie. partitionRootPath
Maksymalna liczba połączeń współbieżnych Górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Określ wartość tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne. <maksymalna liczba połączeń współbieżnych> Nie. maxConcurrent Połączenie ions
Dodatkowe kolumny Dodaj dodatkowe kolumny danych, aby przechowywać ścieżkę względną plików źródłowych lub wartość statyczną. Wyrażenie jest obsługiwane w przypadku tych ostatnich. • Nazwa
•Wartość
Nie. additionalColumns:
•Nazwa
•Wartość

Informacje o lokalizacji docelowej

Nazwa/nazwisko Opis Wartość Wymagania Właściwość skryptu JSON
Typ magazynu danych Typ magazynu danych. Zewnętrzne Tak /
Połączenie Połączenie z docelowym magazynem danych. <połączenie usługi Azure Data Lake Storage Gen2> Tak połączenie
Connection type (Typ połączenia) Typ połączenia. Wybierz pozycję Azure Data Lake Storage Gen2. Azure Data Lake Storage Gen2 Tak /
Ścieżka pliku Ścieżka pliku danych docelowych. < ścieżka pliku > Tak folderPath, fileName, fileSystem
Zachowanie kopiowania Definiuje zachowanie kopiowania, gdy źródłem są pliki z magazynu danych opartego na plikach. • Hierarchia spłaszczana
• Scalanie plików
• Zachowaj hierarchię
Nie. copyBehavior:
• FlattenHierarchy
• MergeFiles
• PreserveHierarchy
Maksymalna liczba połączeń współbieżnych Górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Określ wartość tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne. <maksymalna liczba połączeń współbieżnych> Nie. maxConcurrent Połączenie ions
Rozmiar bloku (MB) Określ rozmiar bloku w MB podczas zapisywania danych w usłudze Azure Data Lake Storage Gen2. Dozwolona wartość wynosi od 4 MB do 100 MB. <rozmiar bloku> Nie. blockSizeInMB
Metadane Ustaw metadane niestandardowe podczas kopiowania do miejsca docelowego. $$LASTMODIFIED
•Wyrażenie
• Wartość statyczna
Nie. metadane