Konfigurowanie protokołu FTP w działaniu kopiowania
W tym artykule opisano sposób używania działania kopiowania w potoku danych do kopiowania danych do kopiowania danych z protokołu FTP.
Obsługiwany format
Protokół FTP obsługuje następujące formaty plików. Zapoznaj się z każdym artykułem, aby zapoznać się z ustawieniami opartymi na formacie.
- Format Avro
- Format binarny
- Format tekstu rozdzielanego
- Format programu Excel
- Format JSON
- Format ORC
- Format Parquet
- Format XML
Obsługiwana konfiguracja
W przypadku konfiguracji każdej karty w działaniu kopiowania przejdź odpowiednio do poniższych sekcji.
Ogólne
Zapoznaj się ze wskazówkami dotyczącymi ustawień ogólnych, aby skonfigurować kartę Ustawienia ogólne.
Źródło
Przejdź do karty Źródło , aby skonfigurować źródło działania kopiowania. Zobacz następującą zawartość, aby uzyskać szczegółową konfigurację.
Wymagane są następujące trzy właściwości:
Typ magazynu danych: wybierz pozycję Zewnętrzne.
Połączenie ion: wybierz połączenie FTP z listy połączeń. Jeśli połączenie nie istnieje, utwórz nowe połączenie FTP, wybierając pozycję Nowy.
Typ ścieżki pliku: wybierz z ścieżki pliku, ścieżki pliku symbolu wieloznakowego i listy plików na podstawie sposobu odczytywania plików.
Ścieżka pliku: w przypadku wybrania tego typu określ ścieżkę pliku źródłowego. Możesz wybrać pozycję Przeglądaj , aby wybrać pliki źródłowe lub ręcznie wprowadzić ścieżkę pliku.
Ścieżka wieloznaczny pliku: w przypadku wybrania tego typu określ ścieżki wieloznaczne, aby filtrować foldery źródłowe lub pliki.
Dozwolone symbole wieloznaczne to
*
(dopasowywały zero lub więcej znaków) i?
(dopasowywały zero lub pojedynczy znak). Użyj^
polecenia , aby uniknąć, jeśli nazwa folderu ma symbol wieloznaczny lub znak ucieczki wewnątrz. Aby uzyskać więcej przykładów, przejdź do pozycji Folder i przykłady filtru plików.Ścieżka folderu z symbolami wieloznacznymi: określ ścieżkę folderu z symbolami wieloznacznymi, aby filtrować foldery źródłowe.
Nazwa pliku z symbolami wieloznacznymi: określ nazwę pliku z symbolami wieloznacznymi w ramach podanej ścieżki folderu folderPath/wieloznaczny do filtrowania plików źródłowych.
Lista plików: w przypadku wybrania tego typu określ ścieżkę folderu i listę Ścieżka do pliku, aby wskazać skopiowanie danego zestawu plików. Wskaż plik tekstowy zawierający listę plików, które chcesz skopiować, jeden plik na wiersz. Aby uzyskać więcej przykładów, przejdź do pozycji Przykłady listy plików.
Ścieżka folderu: określ ścieżkę do folderu źródłowego. Jest to wymagane.
Ścieżka do listy plików: określ ścieżkę pliku tekstowego zawierającego listę plików, które chcesz skopiować.
Format pliku: wybierz format pliku zastosowany z listy rozwijanej. Wybierz Ustawienia, aby skonfigurować format pliku. Aby uzyskać szczegółowe informacje, zobacz artykuły w obsługiwanym formacie .
W obszarze Zaawansowane można określić następujące pola:
Filtruj według ostatniej modyfikacji: pliki są filtrowane na podstawie dat ostatniej modyfikacji. Ta właściwość nie ma zastosowania podczas konfigurowania typu ścieżki pliku jako Listy plików.
- Godzina rozpoczęcia (UTC): pliki są wybierane, jeśli ich czas ostatniej modyfikacji jest większy lub równy skonfigurowanemu czasowi.
- Godzina zakończenia (UTC): Pliki są wybierane, jeśli czas ostatniej modyfikacji jest krótszy niż skonfigurowany czas.
Gdy godzina rozpoczęcia (UTC) ma wartość daty/godziny, ale godzina zakończenia (UTC) ma wartość NULL, oznacza to, że pliki, których ostatnio zmodyfikowany atrybut jest większy niż lub równy wartości daty/godziny, zostaną wybrane. Jeśli godzina zakończenia (UTC) ma wartość daty/godziny, ale godzina rozpoczęcia (UTC) ma wartość NULL, oznacza to, że pliki, których ostatnio zmodyfikowany atrybut jest mniejszy niż wartość daty/godziny, zostanie wybrana. Właściwości mogą mieć wartość NULL, co oznacza, że do danych nie zostanie zastosowany filtr atrybutu pliku.
Wyłącz fragmentowanie: fragmentowanie zostało zaprojektowane tak, aby zoptymalizować wydajność i odbywa się poniżej. Ta opcja umożliwia wyłączenie fragmentowania w każdym pliku. Podczas kopiowania danych z protokołu FTP usługa próbuje najpierw uzyskać długość pliku, a następnie podzielić plik na wiele części i odczytać je równolegle. Określ, czy serwer FTP obsługuje pobieranie długości pliku, czy też próby odczytu z określonego przesunięcia. Jest on domyślnie niezaznaczony.
Włącz odnajdywanie partycji: określ, czy przeanalizować partycje ze ścieżki pliku i dodać je jako dodatkowe kolumny źródłowe. Jest on domyślnie niezaznaczony i nie jest obsługiwany w przypadku korzystania z formatu pliku binarnego.
Ścieżka główna partycji: po włączeniu odnajdywania partycji określ bezwzględną ścieżkę główną, aby odczytywać podzielone na partycje foldery jako kolumny danych.
Jeśli nie zostanie określony, domyślnie,- Jeśli używasz ścieżki pliku lub listy plików w źródle, ścieżka główna partycji jest ścieżką skonfigurowaną.
- W przypadku używania filtru folderów wieloznacznych ścieżka główna partycji jest ścieżką podrzędną przed pierwszym symbolem wieloznacznymi.
Na przykład przy założeniu, że ścieżka jest skonfigurowana jako
root/folder/year=2020/month=08/day=27
:- Jeśli określisz ścieżkę główną partycji jako
root/folder/year=2020
, działanie kopiowania wygeneruje dwa kolejne kolumny miesiąc i dzień z wartością "08" i "27" odpowiednio, oprócz kolumn wewnątrz plików. - Jeśli nie określono ścieżki głównej partycji, nie zostanie wygenerowana żadna dodatkowa kolumna.
Użyj transferu binarnego: określ, czy używać trybu transferu binarnego. Wybierz go, aby użyć trybu binarnego (ustawienie domyślne) lub usuń jego zaznaczenie, aby użyć ASCII.
Maksymalna liczba połączeń współbieżnych: ta właściwość wskazuje górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Określ wartość tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne.
Dodatkowe kolumny: Dodaj dodatkowe kolumny danych, aby przechowywać ścieżkę względną plików źródłowych lub wartość statyczną. Wyrażenie jest obsługiwane w przypadku tych ostatnich. Aby uzyskać więcej informacji, zobacz Dodawanie dodatkowych kolumn podczas kopiowania.
Mapowanie
Aby uzyskać informacje o konfiguracji karty Mapowanie , zobacz Konfigurowanie mapowań na karcie mapowania. Jeśli wybierzesz plik binarny jako format pliku, mapowanie nie będzie obsługiwane.
Ustawienia
Aby uzyskać Ustawienia konfiguracji karty, przejdź do sekcji Konfigurowanie innych ustawień na karcie ustawienia.
Podsumowanie tabeli
Poniższa tabela zawiera więcej informacji na temat działania kopiowania w usłudze FTP.
Źródło
Nazwa/nazwisko | Opis | Wartość | Wymagania | Właściwość skryptu JSON |
---|---|---|---|---|
Typ magazynu danych | Typ magazynu danych. | Zewnętrzne | Tak | / |
Połączenie | Połączenie FTP ze źródłowym magazynem danych. | < połączenie FTP > | Tak | połączenie |
Typ ścieżki pliku | Typ ścieżki pliku używany do pobierania danych źródłowych. | • Ścieżka pliku • Ścieżka pliku z symbolami wieloznacznymi • Lista plików |
Tak | / |
Ścieżka pliku | Ścieżka do pliku źródłowego. | < ścieżka pliku> | Tak | fileName Folderpath |
Ścieżki z symbolami wieloznacznymi | Ścieżka wieloznaczny do pliku źródłowego. | < ścieżka pliku z symbolami wieloznacznymi > | Tak dla nazwy pliku z symbolami wieloznacznymi | wieloznacznyFolderPath symbol wieloznacznyFileName |
Ścieżka folderu | Ścieżka do folderu źródłowego. | < typowa ścieżka folderu macierzystego> | Tak | folderPath |
Ścieżka do listy plików | Wskazuje, aby skopiować dany zestaw plików. Wskaż plik tekstowy zawierający listę plików, które chcesz skopiować, jeden plik na wiersz. | < ścieżka listy plików > | Nie. | fileListPath |
Format pliku | Format pliku dla danych źródłowych. Aby uzyskać informacje o różnych formatach plików, zapoznaj się z artykułami w obsługiwanym formacie , aby uzyskać szczegółowe informacje. | / | Tak | / |
Filtruj według ostatniej modyfikacji | Pliki o ostatniej modyfikacji w zakresie [Godzina rozpoczęcia, Godzina zakończenia) będą filtrowane pod kątem dalszego przetwarzania. Czas zostanie zastosowany do strefy czasowej UTC w formacie yyyy-mm-ddThh:mm:ss.fffZ . Te właściwości można pominąć, co oznacza, że nie zostanie zastosowany filtr atrybutu pliku. Ta właściwość nie ma zastosowania podczas konfigurowania typu ścieżki pliku jako Listy plików. |
datetime | Nie. | modifiedDatetimeStart modifiedDatetimeEnd |
Wyłączanie fragmentowania | Fragmentowanie zostało zaprojektowane tak, aby zoptymalizować wydajność i odbywa się pod spodem. Ta opcja umożliwia wyłączenie fragmentowania w każdym pliku. Podczas kopiowania danych z protokołu FTP usługa próbuje najpierw uzyskać długość pliku, a następnie podzielić plik na wiele części i odczytać je równolegle. Określ, czy serwer FTP obsługuje pobieranie długości pliku, czy też próby odczytu z określonego przesunięcia. | wybrane lub niezaznaczone (ustawienie domyślne) | Nie. | disableChunking: true lub false (wartość domyślna) |
Włączanie odnajdywania partycji | Wskazuje, czy należy przeanalizować partycje ze ścieżki pliku i dodać je jako dodatkowe kolumny źródłowe. | wybrane lub niezaznaczone (ustawienie domyślne) | Nie. | enablePartitionDiscovery: true lub false (wartość domyślna) |
Ścieżka główna partycji | Ścieżka główna partycji bezwzględnej w celu odczytu folderów partycjonowanych jako kolumn danych. Określ je po włączeniu odnajdywania partycji. | < ścieżka główna partycji > | Nie. | partitionRootPath |
Korzystanie z transferu binarnego | Wskazuje, czy używać trybu transferu binarnego. Wartości są prawdziwe dla trybu binarnego (wartość domyślna) i false dla ASCII. | wybrane (domyślne) lub niezaznaczone | Nie. | useBinaryTransfer: true (wartość domyślna) lub fałsz |
Maksymalna liczba połączeń współbieżnych | Górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Określ wartość tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne. | < górny limit połączeń współbieżnych > (liczba całkowita) |
Nie. | maxConcurrent Połączenie ions |
Dodatkowe kolumny | Dodaj dodatkowe kolumny danych, aby przechowywać ścieżkę względną plików źródłowych lub wartość statyczną. Wyrażenie jest obsługiwane w przypadku tych ostatnich. Aby uzyskać więcej informacji, zobacz Dodawanie dodatkowych kolumn podczas kopiowania | • Nazwa •Wartość |
Nie. | additionalColumns: •Nazwa •Wartość |