Condividi tramite


Configurare Oracle Cloud Archiviazione in un'attività di copia

Questo articolo illustra come usare l'attività di copia in una pipeline di dati per copiare dati da Oracle Cloud Archiviazione.

Prerequisiti

Per copiare dati da Oracle Cloud Archiviazione, vedere Object Archiviazione Amazon S3 Compatibility API (API compatibilità Amazon S3) per i prerequisiti e l'autorizzazione necessaria.

Formato supportato

Oracle Cloud Archiviazione supporta i formati di file seguenti. Per impostazioni basate sui formati, fare riferimento ai singoli articoli.

Configurazione supportata

Per la configurazione di ogni scheda in un'attività di copia, passare alle sezioni seguenti:

Generali

Per configurazione della scheda Generale , passare a Generale.

Origine

Le proprietà seguenti sono supportate per Oracle Cloud Archiviazione nella scheda Origine di un'attività di copia.

Screenshot che mostra la scheda Origine e l'elenco delle proprietà.

Sono necessarie le proprietà seguenti:

  • Tipo di archivio dati: selezionare Esterno.

  • Connessione ion: selezionare una connessione Archiviazione Oracle Cloud dall'elenco delle connessioni. Se non esiste alcuna connessione, creare una nuova connessione oracle Cloud Archiviazione selezionando Nuovo.

  • Tipo di percorso file: è possibile scegliere Percorso file, Prefisso, Percorso file con caratteri jolly o Elenco di file come tipo di percorso del file. La configurazione di ognuna di queste impostazioni è:

    • Percorso file: i dati possono essere copiati dal bucket o dal percorso di cartella/file specificato in Percorso file.

    • Prefisso: specificare il bucket e il prefisso.

      • Bucket: specificare il nome del bucket Archiviazione Oracle Cloud. È obbligatorio.

      • Prefisso: prefisso per il nome della chiave Archiviazione Oracle Cloud nel bucket specificato per filtrare i file oracle cloud di origine Archiviazione. Chiavi oracle Cloud Archiviazione i cui nomi iniziano con given_bucket/this_prefix sono selezionati. Usa il filtro lato servizio di Oracle Cloud Archiviazione, che offre prestazioni migliori rispetto a un filtro con caratteri jolly.

        Screenshot che mostra come configurare il tipo di percorso del file Prefisso.

    • Percorso del file con caratteri jolly: specificare i percorsi Bucket e Wildcard.

      • Bucket: specificare il nome del bucket Archiviazione Oracle Cloud. È obbligatorio.

      • Percorsi con caratteri jolly: specificare la cartella o il percorso del file con caratteri jolly nel bucket specificato per filtrare le cartelle o i file di origine.

        I caratteri jolly consentiti sono: * (corrisponde a zero o più caratteri) e ? (corrisponde a zero o a un singolo carattere). Usare ^ per eseguire l'escape se il nome della cartella ha un carattere jolly o questo carattere di escape all'interno. Per altri esempi, vedere Esempi di filtro di file e cartelle.

        Screenshot che mostra come configurare il percorso del file con caratteri jolly.

        • Percorso cartella con caratteri jolly: specificare il percorso della cartella con caratteri jolly nel bucket specificato per filtrare le cartelle di origine.
        • Nome file con caratteri jolly: specificare il nome del file con caratteri jolly nel bucket e nel percorso della cartella specificato (o percorso della cartella con caratteri jolly) per filtrare i file di origine.
    • Elenco di file: specificare il percorso della cartella e l'elenco Percorso file da indicare per copiare un set di file specificato. Puntare a un file di testo che include un elenco di file da copiare, un file per riga, ovvero il percorso relativo al percorso configurato. Per altri esempi, vedere Esempi di elenco file.

      Screenshot che mostra come configurare l'elenco di file.

      • Percorso cartella: specificare il percorso della cartella nel bucket specificato. È obbligatorio.
      • Percorso dell'elenco di file: specificare il percorso del file di testo che include un elenco di file da copiare.
  • Ricorsivamente: indica se i dati vengono letti in modo ricorsivo dalle sottocartelle o solo dalla cartella specificata. Quando questa casella di controllo è selezionata e la destinazione è un archivio basato su file, una cartella o una sottocartella vuota non viene copiata o creata nella destinazione.

  • Formato file: selezionare il formato di file applicato dall'elenco a discesa. Selezionare Impostazioni per configurare il formato di file. Per le impostazioni di formati di file diversi, vedere gli articoli in Formato supportato.

In Avanzate è possibile specificare i campi seguenti:

  • Filtro in base all'ultima modifica: i file vengono filtrati in base alle date dell'ultima modifica specificate. Questa proprietà non si applica quando si configura il tipo di percorso del file come elenco di file.

    • Ora di inizio (UTC): i file vengono selezionati se l'ora dell'ultima modifica è maggiore o uguale all'ora configurata.
    • Ora di fine (UTC): i file vengono selezionati se l'ora dell'ultima modifica è inferiore all'ora configurata.

    Quando l'ora di inizio (UTC) ha un valore datetime, ma l'ora di fine (UTC) è NULL, significa che i file il cui attributo modificato ultimo è maggiore o uguale al valore datetime sono selezionati. Quando l'ora di fine (UTC) ha un valore datetime ma l'ora di inizio (UTC) è NULL, significa che i file il cui ultimo attributo modificato è minore del valore datetime selezionato. Le proprietà possono essere NULL, il che significa che ai dati non viene applicato alcun filtro di attributo di file.

  • Abilita individuazione partizioni: specificare se analizzare le partizioni dal percorso del file e aggiungerle come altre colonne di origine. Non è selezionato per impostazione predefinita e non è supportato quando si usa il formato di file binario.

    • Percorso radice delle partizioni: quando l'individuazione delle partizioni è abilitata, specificare il percorso radice assoluto per leggere le cartelle partizionate come colonne di dati.

      Se non è specificato, per impostazione predefinita:

      • Quando si usa un percorso di file o un elenco di file nell'origine, il percorso radice della partizione è il percorso configurato.
      • Quando si usa un filtro di cartelle con caratteri jolly, il percorso radice della partizione è il percorso secondario prima del primo carattere jolly.
      • Quando si usa un prefisso, il percorso radice della partizione è il percorso secondario prima dell'ultimo "/".

      Si supponga, ad esempio, di configurare il percorso come root/folder/year=2020/month=08/day=27:

      • Se si specifica il percorso radice della partizione come root/folder/year=2020, l'attività di copia genera altre due colonne, mese e giorno. Queste colonne hanno rispettivamente i valori "08" e "27", oltre alle colonne all'interno dei file.
      • Se il percorso radice della partizione non è specificato, non viene generata alcuna colonna aggiuntiva.

      Screenshot che mostra l'opzione Abilita individuazione partizioni.

  • Numero massimo di connessioni simultanee: limite massimo di connessioni simultanee stabilite all'archivio dati durante l'esecuzione dell'attività. Specificare un valore solo quando si desidera limitare le connessioni simultanee.

  • Colonne aggiuntive: aggiungere altre colonne di dati per archiviare il percorso relativo o il valore statico dei file di origine. L'espressione è supportata per quest'ultima.

Mapping

Per la configurazione della scheda Mapping , vedere Configurare i mapping nella scheda Mapping. Se si sceglie Binary come formato di file, il mapping non sarà supportato.

Impostazione

Per Impostazioni configurazione della scheda, vedere Configurare le altre impostazioni nella scheda Impostazioni.

Riepilogo tabella

La tabella seguente contiene altre informazioni sull'attività di copia in Oracle Cloud Archiviazione.

Informazioni sull'origine

Nome Descrizione valore Obbligatorio Proprietà script JSON
Tipo di archivio dati Tipo di archivio dati. Esterno /
Connessione Connessione all'archivio dati di origine. <connessione Archiviazione Oracle Cloud> connection
Tipo di percorso del file Tipo di percorso del file utilizzato per ottenere i dati di origine. Percorso file
Prefisso
Percorso del file con caratteri jolly
Elenco di file
/
Per Percorso file
Secchio Nome del bucket Archiviazione Oracle Cloud. <nome del bucket> bucketName
Directory Percorso della cartella nel bucket specificato. <nome della cartella> No Folderpath
Nome file Nome del file nel bucket e nel percorso della cartella specificati. <nome del file> No fileName
Per prefisso
Secchio Nome del bucket Archiviazione Oracle Cloud. <nome del bucket> bucketName
Prefix Prefisso per il nome della chiave Archiviazione Oracle Cloud nel bucket specificato per filtrare i file oracle Cloud Archiviazione di origine. <il prefisso> No prefix
Per il percorso del file con caratteri jolly
Secchio Nome del bucket Archiviazione Oracle Cloud. <nome del bucket> bucketName
Percorso cartella con caratteri jolly Percorso della cartella con caratteri jolly nel bucket specificato per filtrare le cartelle di origine. <percorso della cartella con caratteri jolly> No wildcardFolderPath
Nome file con caratteri jolly Nome file con caratteri jolly nel bucket e nel percorso della cartella specificato (o percorso della cartella con caratteri jolly) per filtrare i file di origine. <nome file con caratteri jolly> wildcardFileName
Per Elenco di file
Secchio Nome del bucket Archiviazione Oracle Cloud. <nome del bucket> bucketName
Directory Percorso della cartella nel bucket specificato. <nome della cartella> No Folderpath
Percorso dell'elenco di file Indica di copiare un set di file specificato. Puntare a un file di testo che include un elenco di file da copiare, un file per riga. < percorso elenco file > No fileListPath
Formato file Formato di file per i dati di origine. Per informazioni sui diversi formati di file, vedere gli articoli in Formato supportato. / /
Ricorsivamente Indica se i dati vengono letti in modo ricorsivo dalle cartelle secondarie o solo dalla cartella specificata. Quando questa casella di controllo è selezionata e la destinazione è un archivio basato su file, una cartella o una sottocartella vuota non viene copiata o creata nella destinazione. selezionato (impostazione predefinita) o deselezionare No recursive
Filtrare in base all'ultima modifica I file con l'ora dell'ultima modifica nell'intervallo [Ora di inizio, Ora di fine) vengono filtrati per un'ulteriore elaborazione. L'ora viene applicata al fuso orario UTC nel formato .yyyy-mm-ddThh:mm:ss.fffZ Queste proprietà possono essere ignorate, il che significa che non viene applicato alcun filtro dell'attributo di file. Questa proprietà non si applica quando si configura il tipo di percorso del file come elenco di file. datetime No modifiedDatetimeStart
modifiedDatetimeEnd
Abilitare l'individuazione delle partizioni Indica se analizzare le partizioni dal percorso del file e aggiungerle come altre colonne di origine. selezionato o non selezionato (impostazione predefinita) No enablePartitionDiscovery:
true o false (impostazione predefinita)
Percorso radice partizioni Quando l'individuazione delle partizioni è abilitata, specificare il percorso radice assoluto per leggere le cartelle partizionate come colonne di dati. < percorso radice della partizione > No partitionRootPath
Numero massimo di connessioni simultanee Limite massimo di connessioni simultanee stabilite all'archivio dati durante l'esecuzione dell'attività. Specificare un valore solo quando si desidera limitare le connessioni simultanee. <numero massimo di connessioni simultanee> No maxConcurrentConnections
Colonne aggiuntive Aggiungere altre colonne di dati per archiviare il percorso relativo o il valore statico dei file di origine. L'espressione è supportata per quest'ultima. • Name
•Valore
No additionalColumns:
•Nome
•Valore