Udostępnij za pośrednictwem


Konfigurowanie usługi Oracle Cloud Storage w działaniu kopiowania

W tym artykule opisano sposób używania działania kopiowania w potoku danych do kopiowania danych z usługi Oracle Cloud Storage.

Wymagania wstępne

Aby skopiować dane z usługi Oracle Cloud Storage, zobacz Interfejs API zgodności usługi Amazon S3 usługi Object Storage, aby uzyskać wymagania wstępne i wymagane uprawnienia.

Obsługiwany format

Usługa Oracle Cloud Storage obsługuje następujące formaty plików. Zapoznaj się z każdym artykułem, aby zapoznać się z ustawieniami opartymi na formacie.

Obsługiwana konfiguracja

W przypadku konfiguracji każdej karty w działaniu kopiowania przejdź do następujących sekcji:

Ogólne

W obszarze Konfiguracja karty Ogólne przejdź do pozycji Ogólne.

Źródło

Następujące właściwości są obsługiwane w przypadku usługi Oracle Cloud Storage na karcie Źródło działania kopiowania.

Zrzut ekranu przedstawiający kartę Źródło i listę właściwości.

Wymaganenastępujące właściwości:

  • Typ magazynu danych: wybierz pozycję Zewnętrzne.

  • Połączenie ion: wybierz połączenie z usługą Oracle Cloud Storage z listy połączeń. Jeśli połączenie nie istnieje, utwórz nowe połączenie Oracle Cloud Storage, wybierając pozycję Nowy.

  • Typ ścieżki pliku: możesz wybrać ścieżkę pliku, prefiks, ścieżkę pliku z symbolem wieloznacznymi lub listę plików jako typ ścieżki pliku. Konfiguracja każdego z tych ustawień to:

    • Ścieżka pliku: dane można skopiować z określonego zasobnika lub ścieżki folderu/pliku określonej w ścieżce pliku.

    • Prefiks: określ zasobnik i prefiks.

      • Zasobnik: określ nazwę zasobnika Oracle Cloud Storage. Jest to wymagane.

      • Prefiks: prefiks nazwy klucza usługi Oracle Cloud Storage w określonym zasobniku w celu filtrowania źródłowych plików Oracle Cloud Storage. Wybrano klucze magazynu Oracle Cloud Storage, których nazwy zaczynają się od given_bucket/this_prefix . Korzysta z filtru po stronie usługi Oracle Cloud Storage, który zapewnia lepszą wydajność niż filtr wieloznaczny.

        Zrzut ekranu przedstawiający sposób konfigurowania typu ścieżki pliku prefiksu.

    • Ścieżka pliku z symbolami wieloznacznymi: określ ścieżki zasobnika i symboli wieloznacznych.

      • Zasobnik: określ nazwę zasobnika Oracle Cloud Storage. Jest to wymagane.

      • Ścieżki z symbolami wieloznacznymi: określ folder lub ścieżkę pliku z symbolami wieloznacznymi w określonym zasobniku, aby filtrować foldery źródłowe lub pliki.

        Dozwolone symbole wieloznaczne to: * (pasuje do zera lub większej liczby znaków) i ? (pasuje do zera lub pojedynczego znaku). Użyj ^ polecenia , aby uniknąć, jeśli nazwa folderu ma symbol wieloznaczny lub znak ucieczki wewnątrz. Aby uzyskać więcej przykładów, przejdź do pozycji Folder i przykłady filtru plików.

        Zrzut ekranu przedstawiający sposób konfigurowania ścieżki pliku z symbolami wieloznacznymi.

        • Ścieżka folderu z symbolami wieloznacznymi: określ ścieżkę folderu z symbolami wieloznacznymi w określonym zasobniku, aby filtrować foldery źródłowe.
        • Nazwa pliku z symbolami wieloznacznymi: określ nazwę pliku z symbolami wieloznacznymi w ramach określonego zasobnika i ścieżki folderu (lub ścieżki folderu z symbolami wieloznacznymi) do filtrowania plików źródłowych.
    • Lista plików: określ ścieżkę folderu i ścieżkę do listy plików, aby wskazać, aby skopiować określony zestaw plików. Wskaż plik tekstowy zawierający listę plików, które chcesz skopiować, jeden plik na wiersz, który jest ścieżką względną do skonfigurowanej ścieżki. Aby uzyskać więcej przykładów, przejdź do pozycji Przykłady listy plików.

      Zrzut ekranu przedstawiający sposób konfigurowania listy plików.

      • Ścieżka folderu: określ ścieżkę do folderu w określonym zasobniku. Jest to wymagane.
      • Ścieżka do listy plików: określ ścieżkę pliku tekstowego zawierającego listę plików, które chcesz skopiować.
  • Rekursywnie: wskazuje, czy dane są odczytywane rekursywnie z podfolderów, czy tylko z określonego folderu. Po zaznaczeniu tego pola wyboru miejsce docelowe jest magazynem opartym na plikach, pusty folder lub podfolder nie jest kopiowany ani tworzony w miejscu docelowym.

  • Format pliku: wybierz format pliku zastosowany z listy rozwijanej. Wybierz Ustawienia, aby skonfigurować format pliku. Aby zapoznać się z ustawieniami różnych formatów plików, zapoznaj się z artykułami w obsługiwanym formacie.

W obszarze Zaawansowane można określić następujące pola:

  • Filtruj według ostatniej modyfikacji: pliki są filtrowane w oparciu o określone daty ostatniej modyfikacji. Ta właściwość nie ma zastosowania podczas konfigurowania typu ścieżki pliku jako Listy plików.

    • Godzina rozpoczęcia (UTC): pliki są wybierane, jeśli ich czas ostatniej modyfikacji jest większy lub równy skonfigurowanemu czasowi.
    • Godzina zakończenia (UTC): Pliki są wybierane, jeśli czas ostatniej modyfikacji jest krótszy niż skonfigurowany czas.

    Gdy godzina rozpoczęcia (UTC) ma wartość daty/godziny, ale godzina zakończenia (UTC) ma wartość NULL, oznacza to, że pliki, których ostatni zmodyfikowany atrybut jest większy lub równy wartości daty/godziny, są zaznaczone. Jeśli godzina zakończenia (UTC) ma wartość daty/godziny, ale godzina rozpoczęcia (UTC) ma wartość NULL, oznacza to, że pliki, których ostatnio zmodyfikowany atrybut jest mniejszy niż wartość daty/godziny, są zaznaczone. Właściwości mogą mieć wartość NULL, co oznacza, że do danych nie zastosowano filtru atrybutu pliku.

  • Włącz odnajdywanie partycji: określ, czy analizować partycje ze ścieżki pliku i dodawać je jako inne kolumny źródłowe. Nie jest ona domyślnie zaznaczona i nie jest obsługiwana w przypadku korzystania z formatu pliku binarnego.

    • Ścieżka główna partycji: po włączeniu odnajdywania partycji określ bezwzględną ścieżkę główną do odczytu folderów podzielonych na partycje jako kolumny danych.

      Jeśli nie zostanie określony, domyślnie:

      • Jeśli używasz ścieżki pliku lub listy plików w źródle, ścieżka główna partycji jest ścieżką skonfigurowaną.
      • Jeśli używasz filtru folderu wieloznacznych, ścieżka główna partycji jest ścieżką podrzędną przed pierwszym symbolem wieloznacznymi.
      • W przypadku używania prefiksu ścieżka główna partycji jest ścieżką podrzędną przed ostatnim "/".

      Załóżmy na przykład, że ścieżka jest skonfigurowana jako root/folder/year=2020/month=08/day=27:

      • Jeśli określisz ścieżkę główną partycji jako root/folder/year=2020, działanie kopiowania generuje jeszcze dwie kolumny, miesiąc i dzień. Te kolumny mają odpowiednio wartości "08" i "27" oprócz kolumn w plikach.
      • Jeśli ścieżka główna partycji nie zostanie określona, nie zostanie wygenerowana żadna dodatkowa kolumna.

      Zrzut ekranu przedstawiający opcję Włącz odnajdywanie partycji.

  • Maksymalna liczba połączeń współbieżnych: górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Określ wartość tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne.

  • Dodatkowe kolumny: dodaj więcej kolumn danych, aby przechowywać ścieżkę względną plików źródłowych lub wartość statyczną. Wyrażenie jest obsługiwane w przypadku tych ostatnich.

Mapowanie

Aby uzyskać informacje na temat konfiguracji karty Mapowanie , zobacz Konfigurowanie mapowań na karcie Mapowanie. Jeśli wybierzesz plik binarny jako format pliku, mapowanie nie będzie obsługiwane.

Ustawienia

Aby uzyskać Ustawienia konfiguracji karty, zobacz Konfigurowanie innych ustawień na karcie Ustawienia.

Podsumowanie tabeli

Poniższa tabela zawiera więcej informacji o działaniu kopiowania w usłudze Oracle Cloud Storage.

Informacje źródłowe

Nazwa/nazwisko Opis Wartość Wymagane Właściwość skryptu JSON
Typ magazynu danych Typ magazynu danych. Zewnętrzne Tak /
Połączenie Połączenie ze źródłowym magazynem danych. <połączenie z usługą Oracle Cloud Storage> Tak połączenie
Typ ścieżki pliku Typ ścieżki pliku używany do pobierania danych źródłowych. Ścieżka pliku
Prefiks
Ścieżka pliku z symbolami wieloznacznymi
Lista plików
Tak /
W obszarze Ścieżka pliku
Wiadro Nazwa zasobnika Oracle Cloud Storage. <nazwa zasobnika> Tak bucketName
Katalogu Ścieżka do folderu w określonym zasobniku. <nazwa folderu> Nie. Folderpath
Nazwa pliku Nazwa pliku w określonym zasobniku i ścieżce folderu. <nazwa pliku> Nie. fileName
Dla prefiksu
Wiadro Nazwa zasobnika Oracle Cloud Storage. <nazwa zasobnika> Tak bucketName
Prefiks Prefiks nazwy klucza usługi Oracle Cloud Storage w ramach określonego zasobnika do filtrowania źródłowych plików Oracle Cloud Storage. <prefiks> Nie. Prefiks
W przypadku ścieżki pliku z symbolami wieloznacznymi
Wiadro Nazwa zasobnika Oracle Cloud Storage. <nazwa zasobnika> Tak bucketName
Ścieżka folderu z symbolami wieloznacznymi Ścieżka folderu z symbolami wieloznacznymi w określonym zasobniku do filtrowania folderów źródłowych. <ścieżka folderu z symbolami wieloznacznymi> Nie. wieloznacznyFolderPath
Nazwa pliku z symbolami wieloznacznymi Nazwa pliku z symbolami wieloznacznymi w ramach określonego zasobnika i ścieżki folderu (lub ścieżki folderu z symbolami wieloznacznymi) do filtrowania plików źródłowych. <nazwa pliku z symbolami wieloznacznymi> Tak symbol wieloznacznyFileName
Lista plików
Wiadro Nazwa zasobnika Oracle Cloud Storage. <nazwa zasobnika> Tak bucketName
Katalogu Ścieżka do folderu w określonym zasobniku. <nazwa folderu> Nie. Folderpath
Ścieżka do listy plików Wskazuje, aby skopiować określony zestaw plików. Wskaż plik tekstowy zawierający listę plików, które chcesz skopiować, jeden plik na wiersz. < ścieżka listy plików > Nie. fileListPath
Format pliku Format pliku dla danych źródłowych. Aby uzyskać informacje na temat różnych formatów plików, zapoznaj się z artykułami w obsługiwanym formacie. / Tak /
Rekursywnie Wskazuje, czy dane są odczytywane rekursywnie z podfolderów, czy tylko z określonego folderu. Po zaznaczeniu tego pola wyboru miejsce docelowe jest magazynem opartym na plikach, pusty folder lub podfolder nie jest kopiowany ani tworzony w miejscu docelowym. wybrane (domyślne) lub usuń zaznaczenie Nie. Cykliczne
Filtruj według ostatniej modyfikacji Pliki o ostatniej modyfikacji w zakresie [Godzina rozpoczęcia, Godzina zakończenia) są filtrowane pod kątem dalszego przetwarzania. Czas jest stosowany do strefy czasowej UTC w formacie yyyy-mm-ddThh:mm:ss.fffZ. Te właściwości można pominąć, co oznacza, że nie zastosowano filtru atrybutów pliku. Ta właściwość nie ma zastosowania podczas konfigurowania typu ścieżki pliku jako Listy plików. datetime Nie. modifiedDatetimeStart
modifiedDatetimeEnd
Włączanie odnajdywania partycji Wskazuje, czy należy przeanalizować partycje ze ścieżki pliku i dodać je jako inne kolumny źródłowe. wybrane lub niezaznaczone (ustawienie domyślne) Nie. enablePartitionDiscovery:
true lub false (wartość domyślna)
Ścieżka główna partycji Po włączeniu odnajdywania partycji określ bezwzględną ścieżkę główną do odczytu folderów podzielonych na partycje jako kolumny danych. < ścieżka główna partycji > Nie. partitionRootPath
Maksymalna liczba połączeń współbieżnych Górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Określ wartość tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne. <maksymalna liczba połączeń współbieżnych> Nie. maxConcurrent Połączenie ions
Dodatkowe kolumny Dodaj inne kolumny danych, aby przechowywać ścieżkę względną plików źródłowych lub wartość statyczną. Wyrażenie jest obsługiwane w przypadku tych ostatnich. • Nazwa
•Wartość
Nie. additionalColumns:
•Nazwa
•Wartość