Udostępnij za pośrednictwem


Konfigurowanie protokołu FTP w działaniu kopiowania

W tym artykule opisano sposób używania działania kopiowania w potoku danych do kopiowania danych do kopiowania danych z protokołu FTP.

Obsługiwany format

Protokół FTP obsługuje następujące formaty plików. Zapoznaj się z każdym artykułem, aby zapoznać się z ustawieniami opartymi na formacie.

Obsługiwana konfiguracja

W przypadku konfiguracji każdej karty w działaniu kopiowania przejdź odpowiednio do poniższych sekcji.

Ogólne

Zapoznaj się ze wskazówkami dotyczącymi ustawień ogólnych, aby skonfigurować kartę Ustawienia ogólne.

Źródło

Przejdź do karty Źródło , aby skonfigurować źródło działania kopiowania. Zobacz następującą zawartość, aby uzyskać szczegółową konfigurację.

Screenshot showing source tab and the list of properties.

Wymaganenastępujące trzy właściwości:

  • Typ magazynu danych: wybierz pozycję Zewnętrzne.

  • Połączenie ion: wybierz połączenie FTP z listy połączeń. Jeśli połączenie nie istnieje, utwórz nowe połączenie FTP, wybierając pozycję Nowy.

  • Typ ścieżki pliku: wybierz z ścieżki pliku, ścieżki pliku symbolu wieloznakowego i listy plików na podstawie sposobu odczytywania plików.

    • Ścieżka pliku: w przypadku wybrania tego typu określ ścieżkę pliku źródłowego. Możesz wybrać pozycję Przeglądaj , aby wybrać pliki źródłowe lub ręcznie wprowadzić ścieżkę pliku.

    • Ścieżka wieloznaczny pliku: w przypadku wybrania tego typu określ ścieżki wieloznaczne, aby filtrować foldery źródłowe lub pliki.

      Dozwolone symbole wieloznaczne to * (dopasowywały zero lub więcej znaków) i ? (dopasowywały zero lub pojedynczy znak). Użyj ^ polecenia , aby uniknąć, jeśli nazwa folderu ma symbol wieloznaczny lub znak ucieczki wewnątrz. Aby uzyskać więcej przykładów, przejdź do pozycji Folder i przykłady filtru plików.

      Screenshot showing wildcard file path.

      Ścieżka folderu z symbolami wieloznacznymi: określ ścieżkę folderu z symbolami wieloznacznymi, aby filtrować foldery źródłowe.

      Nazwa pliku z symbolami wieloznacznymi: określ nazwę pliku z symbolami wieloznacznymi w ramach podanej ścieżki folderu folderPath/wieloznaczny do filtrowania plików źródłowych.

    • Lista plików: w przypadku wybrania tego typu określ ścieżkę folderu i listę Ścieżka do pliku, aby wskazać skopiowanie danego zestawu plików. Wskaż plik tekstowy zawierający listę plików, które chcesz skopiować, jeden plik na wiersz. Aby uzyskać więcej przykładów, przejdź do pozycji Przykłady listy plików.

      Ścieżka folderu: określ ścieżkę do folderu źródłowego. Jest to wymagane.
      Ścieżka do listy plików: określ ścieżkę pliku tekstowego zawierającego listę plików, które chcesz skopiować.

      Screenshot showing list of files.

  • Format pliku: wybierz format pliku zastosowany z listy rozwijanej. Wybierz Ustawienia, aby skonfigurować format pliku. Aby uzyskać szczegółowe informacje, zobacz artykuły w obsługiwanym formacie .

W obszarze Zaawansowane można określić następujące pola:

  • Filtruj według ostatniej modyfikacji: pliki są filtrowane na podstawie dat ostatniej modyfikacji. Ta właściwość nie ma zastosowania podczas konfigurowania typu ścieżki pliku jako Listy plików.

    • Godzina rozpoczęcia (UTC): pliki są wybierane, jeśli ich czas ostatniej modyfikacji jest większy lub równy skonfigurowanemu czasowi.
    • Godzina zakończenia (UTC): Pliki są wybierane, jeśli czas ostatniej modyfikacji jest krótszy niż skonfigurowany czas.

    Gdy godzina rozpoczęcia (UTC) ma wartość daty/godziny, ale godzina zakończenia (UTC) ma wartość NULL, oznacza to, że pliki, których ostatnio zmodyfikowany atrybut jest większy niż lub równy wartości daty/godziny, zostaną wybrane. Jeśli godzina zakończenia (UTC) ma wartość daty/godziny, ale godzina rozpoczęcia (UTC) ma wartość NULL, oznacza to, że pliki, których ostatnio zmodyfikowany atrybut jest mniejszy niż wartość daty/godziny, zostanie wybrana. Właściwości mogą mieć wartość NULL, co oznacza, że do danych nie zostanie zastosowany filtr atrybutu pliku.

  • Wyłącz fragmentowanie: fragmentowanie zostało zaprojektowane tak, aby zoptymalizować wydajność i odbywa się poniżej. Ta opcja umożliwia wyłączenie fragmentowania w każdym pliku. Podczas kopiowania danych z protokołu FTP usługa próbuje najpierw uzyskać długość pliku, a następnie podzielić plik na wiele części i odczytać je równolegle. Określ, czy serwer FTP obsługuje pobieranie długości pliku, czy też próby odczytu z określonego przesunięcia. Jest on domyślnie niezaznaczony.

  • Włącz odnajdywanie partycji: określ, czy przeanalizować partycje ze ścieżki pliku i dodać je jako dodatkowe kolumny źródłowe. Jest on domyślnie niezaznaczony i nie jest obsługiwany w przypadku korzystania z formatu pliku binarnego.

    • Ścieżka główna partycji: po włączeniu odnajdywania partycji określ bezwzględną ścieżkę główną, aby odczytywać podzielone na partycje foldery jako kolumny danych.
      Jeśli nie zostanie określony, domyślnie,

      • Jeśli używasz ścieżki pliku lub listy plików w źródle, ścieżka główna partycji jest ścieżką skonfigurowaną.
      • W przypadku używania filtru folderów wieloznacznych ścieżka główna partycji jest ścieżką podrzędną przed pierwszym symbolem wieloznacznymi.

      Na przykład przy założeniu, że ścieżka jest skonfigurowana jako root/folder/year=2020/month=08/day=27:

      • Jeśli określisz ścieżkę główną partycji jako root/folder/year=2020, działanie kopiowania wygeneruje dwa kolejne kolumny miesiąc i dzień z wartością "08" i "27" odpowiednio, oprócz kolumn wewnątrz plików.
      • Jeśli nie określono ścieżki głównej partycji, nie zostanie wygenerowana żadna dodatkowa kolumna.

      Screenshot showing partition discovery.

  • Użyj transferu binarnego: określ, czy używać trybu transferu binarnego. Wybierz go, aby użyć trybu binarnego (ustawienie domyślne) lub usuń jego zaznaczenie, aby użyć ASCII.

  • Maksymalna liczba połączeń współbieżnych: ta właściwość wskazuje górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Określ wartość tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne.

  • Dodatkowe kolumny: Dodaj dodatkowe kolumny danych, aby przechowywać ścieżkę względną plików źródłowych lub wartość statyczną. Wyrażenie jest obsługiwane w przypadku tych ostatnich. Aby uzyskać więcej informacji, zobacz Dodawanie dodatkowych kolumn podczas kopiowania.

Mapowanie

Aby uzyskać informacje o konfiguracji karty Mapowanie , zobacz Konfigurowanie mapowań na karcie mapowania. Jeśli wybierzesz plik binarny jako format pliku, mapowanie nie będzie obsługiwane.

Ustawienia

Aby uzyskać Ustawienia konfiguracji karty, przejdź do sekcji Konfigurowanie innych ustawień na karcie ustawienia.

Podsumowanie tabeli

Poniższa tabela zawiera więcej informacji na temat działania kopiowania w usłudze FTP.

Źródło

Nazwa/nazwisko Opis Wartość Wymagania Właściwość skryptu JSON
Typ magazynu danych Typ magazynu danych. Zewnętrzne Tak /
Połączenie Połączenie FTP ze źródłowym magazynem danych. < połączenie FTP > Tak połączenie
Typ ścieżki pliku Typ ścieżki pliku używany do pobierania danych źródłowych. Ścieżka pliku
Ścieżka pliku z symbolami wieloznacznymi
Lista plików
Tak /
Ścieżka pliku Ścieżka do pliku źródłowego. < ścieżka pliku> Tak fileName
Folderpath
Ścieżki z symbolami wieloznacznymi Ścieżka wieloznaczny do pliku źródłowego. < ścieżka pliku z symbolami wieloznacznymi > Tak dla nazwy pliku z symbolami wieloznacznymi wieloznacznyFolderPath
symbol wieloznacznyFileName
Ścieżka folderu Ścieżka do folderu źródłowego. < typowa ścieżka folderu macierzystego> Tak folderPath
Ścieżka do listy plików Wskazuje, aby skopiować dany zestaw plików. Wskaż plik tekstowy zawierający listę plików, które chcesz skopiować, jeden plik na wiersz. < ścieżka listy plików > Nie. fileListPath
Format pliku Format pliku dla danych źródłowych. Aby uzyskać informacje o różnych formatach plików, zapoznaj się z artykułami w obsługiwanym formacie , aby uzyskać szczegółowe informacje. / Tak /
Filtruj według ostatniej modyfikacji Pliki o ostatniej modyfikacji w zakresie [Godzina rozpoczęcia, Godzina zakończenia) będą filtrowane pod kątem dalszego przetwarzania. Czas zostanie zastosowany do strefy czasowej UTC w formacie yyyy-mm-ddThh:mm:ss.fffZ. Te właściwości można pominąć, co oznacza, że nie zostanie zastosowany filtr atrybutu pliku. Ta właściwość nie ma zastosowania podczas konfigurowania typu ścieżki pliku jako Listy plików. datetime Nie. modifiedDatetimeStart
modifiedDatetimeEnd
Wyłączanie fragmentowania Fragmentowanie zostało zaprojektowane tak, aby zoptymalizować wydajność i odbywa się pod spodem. Ta opcja umożliwia wyłączenie fragmentowania w każdym pliku. Podczas kopiowania danych z protokołu FTP usługa próbuje najpierw uzyskać długość pliku, a następnie podzielić plik na wiele części i odczytać je równolegle. Określ, czy serwer FTP obsługuje pobieranie długości pliku, czy też próby odczytu z określonego przesunięcia. wybrane lub niezaznaczone (ustawienie domyślne) Nie. disableChunking:
true lub false (wartość domyślna)
Włączanie odnajdywania partycji Wskazuje, czy należy przeanalizować partycje ze ścieżki pliku i dodać je jako dodatkowe kolumny źródłowe. wybrane lub niezaznaczone (ustawienie domyślne) Nie. enablePartitionDiscovery:
true lub false (wartość domyślna)
Ścieżka główna partycji Ścieżka główna partycji bezwzględnej w celu odczytu folderów partycjonowanych jako kolumn danych. Określ je po włączeniu odnajdywania partycji. < ścieżka główna partycji > Nie. partitionRootPath
Korzystanie z transferu binarnego Wskazuje, czy używać trybu transferu binarnego. Wartości są prawdziwe dla trybu binarnego (wartość domyślna) i false dla ASCII. wybrane (domyślne) lub niezaznaczone Nie. useBinaryTransfer:
true (wartość domyślna) lub fałsz
Maksymalna liczba połączeń współbieżnych Górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Określ wartość tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne. < górny limit połączeń współbieżnych >
(liczba całkowita)
Nie. maxConcurrent Połączenie ions
Dodatkowe kolumny Dodaj dodatkowe kolumny danych, aby przechowywać ścieżkę względną plików źródłowych lub wartość statyczną. Wyrażenie jest obsługiwane w przypadku tych ostatnich. Aby uzyskać więcej informacji, zobacz Dodawanie dodatkowych kolumn podczas kopiowania • Nazwa
•Wartość
Nie. additionalColumns:
•Nazwa
•Wartość