Copiare e trasformare i dati in Archiviazione BLOB di Azure usando Azure Data Factory o Azure Synapse Analytics

SI APPLICA A: Azure Data Factory Azure Synapse Analytics

Questo articolo illustra come usare la attività Copy nelle pipeline di Azure Data Factory e Azure Synapse per copiare i dati da e per Archiviazione BLOB di Azure. Descrive anche come usare l'attività Flusso di dati per trasformare i dati in Archiviazione BLOB di Azure. Per altre informazioni, vedere gli articoli introduttivi di Azure Data Factory e analisi di Azure Synapse.

Suggerimento

Per informazioni su uno scenario di migrazione per un data lake o un data warehouse, vedere l'articolo Eseguire la migrazione dei dati dal data lake o dal data warehouse ad Azure.

Funzionalità supportate

Questo connettore Archiviazione BLOB di Azure è supportato per le funzionalità seguenti:

Funzionalità supportate IR Endpoint privato gestito
attività Copy (source/sink) ① ② Escludere l'account di archiviazione V1
Mapping del flusso di dati (origine/sink) Escludere l'account di archiviazione V1
Attività Lookup ① ② Escludere l'account di archiviazione V1
Attività GetMetadata ① ② Escludere l'account di archiviazione V1
Attività Delete ① ② Escludere l'account di archiviazione V1

(1) Runtime di integrazione di Azure (2) Runtime di integrazione self-hosted

Per il attività Copy, questo connettore di archiviazione BLOB supporta:

  • La copia di BLOB in e da account di archiviazione di Azure per utilizzo generico e servizi di Archiviazione BLOB ad accesso frequente o sporadico.
  • Copia di BLOB usando una chiave account, una firma di accesso condiviso del servizio, un'entità servizio o identità gestite per le autenticazione delle risorse di Azure.
  • La copia di BLOB da BLOB in blocchi, di aggiunta o di pagine e la copia di dati solo in BLOB in blocchi.
  • Copia di BLOB come è o analisi o generazione di BLOB con formati di file supportati e codec di compressione.
  • Conservazione dei metadati dei file durante la copia.

Introduzione

Per eseguire l'attività di copia con una pipeline, è possibile usare uno degli strumenti o SDK seguenti:

Creare un servizio collegato Archiviazione BLOB di Azure tramite l'interfaccia utente

Seguire questa procedura per creare un servizio collegato Archiviazione BLOB di Azure nell'interfaccia utente portale di Azure.

  1. Passare alla scheda Gestisci nell'area di lavoro Azure Data Factory o Synapse e selezionare Servizi collegati, quindi fare clic su Nuovo:

  2. Cercare BLOB e selezionare il connettore Archiviazione BLOB di Azure.

    Selezionare Archiviazione BLOB di Azure connettore.

  3. Configurare i dettagli del servizio, testare la connessione e creare il nuovo servizio collegato.

    Screenshot della configurazione per Archiviazione BLOB di Azure servizio collegato.

Dettagli sulla configurazione del connettore

Le sezioni seguenti forniscono informazioni dettagliate sulle proprietà usate per definire le entità della pipeline di Data Factory e Synapse specifiche dell'archiviazione BLOB.

Proprietà del servizio collegato

Questo connettore di archiviazione BLOB supporta i tipi di autenticazione seguenti. Per informazioni dettagliate, vedere le sezioni corrispondenti.

Nota

Nota

Le attività di Azure HDInsight e Azure Machine Learning supportano solo l'autenticazione che usa le chiavi dell'account Archiviazione BLOB di Azure.

Autenticazione basata sulla chiave dell'account

Le proprietà seguenti sono supportate per l'autenticazione della chiave dell'account di archiviazione nelle pipeline di Azure Data Factory o Synapse:

Proprietà Descrizione Obbligatoria
type La type proprietà deve essere impostata su AzureBlobStorage (suggerita) o AzureStorage (vedere le note seguenti).
connectionString Specificare le informazioni necessarie per connettersi all'archiviazione per la connectionString proprietà.
È anche possibile inserire la chiave dell'account in Azure Key Vault e estrarre la accountKey configurazione dalla stringa di connessione. Per altre informazioni, vedere gli esempi seguenti e le credenziali dello Store in Azure Key Vault articolo.
connectVia Runtime di integrazione da usare per la connessione all'archivio dati. È possibile usare il runtime di integrazione di Azure o il runtime di integrazione self-hosted (se l'archivio dati si trova in una rete privata). Se questa proprietà non è specificata, il servizio usa il runtime di integrazione di Azure predefinito. No

Nota

Un endpoint del servizio BLOB secondario non è supportato quando si usa l'autenticazione della chiave dell'account. È possibile usare altri tipi di autenticazione.

Nota

Se si usa il servizio collegato di AzureStorage tipo, è ancora supportato come è. È tuttavia consigliabile usare il nuovo AzureBlobStorage tipo di servizio collegato in futuro.

Esempio:

{
    "name": "AzureBlobStorageLinkedService",
    "properties": {
        "type": "AzureBlobStorage",
        "typeProperties": {
          "connectionString": "DefaultEndpointsProtocol=https;AccountName=<accountname>;AccountKey=<accountkey>"
        },
        "connectVia": {
          "referenceName": "<name of Integration Runtime>",
          "type": "IntegrationRuntimeReference"
        }
    }
}

Esempio: archiviare la chiave dell'account in Azure Key Vault

{
    "name": "AzureBlobStorageLinkedService",
    "properties": {
        "type": "AzureBlobStorage",
        "typeProperties": {
            "connectionString": "DefaultEndpointsProtocol=https;AccountName=<accountname>;",
            "accountKey": {
                "type": "AzureKeyVaultSecret",
                "store": {
                    "referenceName": "<Azure Key Vault linked service name>",
                    "type": "LinkedServiceReference"
                },
                "secretName": "<secretName>"
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Autenticazione con firma di accesso condiviso

Una firma di accesso condiviso fornisce accesso delegato controllato alle risorse dell'account di archiviazione. È possibile usarla per concedere a un client autorizzazioni limitate per gli oggetti nell'account di archiviazione per un periodo di tempo specificato.

Non è necessario condividere le chiavi di accesso degli account. La firma di accesso condiviso è un URI che racchiude nei parametri di query tutte le informazioni necessarie per l'accesso autenticato a una risorsa di archiviazione. Per accedere alle risorse di archiviazione con la firma di accesso condiviso, il client deve solo passare la firma di accesso condiviso al costruttore o al metodo appropriato.

Per altre informazioni sulle firme di accesso condiviso, vedere Uso delle firme di accesso condiviso.

Nota

Per l'uso dell'autenticazione della firma di accesso condiviso sono supportate le proprietà seguenti:

Proprietà Descrizione Obbligatoria
type La type proprietà deve essere impostata su AzureBlobStorage (suggerita) o AzureStorage (vedere la nota seguente).
sasUri Specificare l'URI della firma di accesso condiviso per le risorse di archiviazione, ad esempio BLOB o contenitore.
Contrassegna questo campo come SecureString per archiviarlo in modo sicuro. È anche possibile inserire il token di firma di accesso condiviso in Azure Key Vault per usare la rotazione automatica e rimuovere la parte del token. Per altre informazioni, vedere gli esempi seguenti e Archiviare le credenziali in Azure Key Vault.
connectVia Runtime di integrazione da usare per la connessione all'archivio dati. È possibile usare il runtime di integrazione di Azure o il runtime di integrazione self-hosted (se l'archivio dati si trova in una rete privata). Se questa proprietà non viene specificata, il servizio usa il runtime di integrazione di Azure predefinito. No

Nota

Se si usa il AzureStorage servizio collegato di tipo, è ancora supportato così come è. È tuttavia consigliabile usare il nuovo AzureBlobStorage tipo di servizio collegato in futuro.

Esempio:

{
    "name": "AzureBlobStorageLinkedService",
    "properties": {
        "type": "AzureBlobStorage",
        "typeProperties": {
            "sasUri": {
                "type": "SecureString",
                "value": "<SAS URI of the Azure Storage resource e.g. https://<accountname>.blob.core.windows.net/?sv=<storage version>&st=<start time>&se=<expire time>&sr=<resource>&sp=<permissions>&sip=<ip range>&spr=<protocol>&sig=<signature>>"
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Esempio: archiviare la chiave dell'account in Azure Key Vault

{
    "name": "AzureBlobStorageLinkedService",
    "properties": {
        "type": "AzureBlobStorage",
        "typeProperties": {
            "sasUri": {
                "type": "SecureString",
                "value": "<SAS URI of the Azure Storage resource without token e.g. https://<accountname>.blob.core.windows.net/>"
            },
            "sasToken": {
                "type": "AzureKeyVaultSecret",
                "store": {
                    "referenceName": "<Azure Key Vault linked service name>", 
                    "type": "LinkedServiceReference"
                },
                "secretName": "<secretName with value of SAS token e.g. ?sv=<storage version>&st=<start time>&se=<expire time>&sr=<resource>&sp=<permissions>&sip=<ip range>&spr=<protocol>&sig=<signature>>"
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Quando si crea un URI di firma di accesso condiviso, tenere presente quanto segue:

  • Impostare le autorizzazioni di lettura/scrittura appropriate per gli oggetti in base alla modalità di utilizzo del servizio collegato (lettura, scrittura, lettura/scrittura).
  • Impostare Ora di scadenza in modo appropriato. Assicurarsi che l'accesso agli oggetti di archiviazione non scada nel periodo attivo della pipeline.
  • L'URI deve essere creato nel contenitore o nel BLOB corretto in base alle esigenze. Un URI della firma di accesso condiviso a un BLOB consente alla pipeline di Data Factory o Synapse di accedere a tale BLOB specifico. Un URI della firma di accesso condiviso a un contenitore di archiviazione BLOB consente alla data factory o alla pipeline di Synapse di scorrere i BLOB in tale contenitore. Per consentire l'accesso a più o meno oggetti in un secondo momento o aggiornare l'URI di firma di accesso condiviso, ricordarsi di aggiornare il servizio collegato con il nuovo URI.

Autenticazione di un'entità servizio

Per informazioni generali sull'autenticazione dell'entità servizio di Archiviazione di Azure, vedere Autenticare l'accesso ad Archiviazione di Azure con Azure Active Directory.

Per usare l'autenticazione basata su entità servizio, eseguire la procedura seguente:

  1. Registrare un'entità applicazione in Azure Active Directory (Azure AD) seguendo le indicazioni fornite in Registrare l'applicazione con un tenant di Azure AD. Prendere nota di questi valori, usati per definire il servizio collegato:

    • ID applicazione
    • Chiave applicazione
    • ID tenant
  2. Concedere all'entità servizio l'autorizzazione appropriata in Archiviazione BLOB di Azure. Per altre informazioni sui ruoli, vedere Usare il portale di Azure per assegnare un ruolo di Azure per l'accesso ai dati blob e code.

    • Come origine, in Controllo di accesso (IAM) concedere almeno il ruolo Lettore dati BLOB di archiviazione .
    • Come sink, in Controllo di accesso (IAM) concedere almeno il ruolo Collaboratore ai dati del BLOB di archiviazione .

Queste proprietà sono supportate per un servizio collegato Archiviazione BLOB di Azure:

Proprietà Descrizione Obbligatoria
type La proprietà type deve essere impostata su AzureBlobStorage.
serviceEndpoint Specificare l'endpoint del servizio Archiviazione BLOB di Azure con il modello di https://<accountName>.blob.core.windows.net/.
accountKind Specificare il tipo di account di archiviazione. I valori consentiti sono: Archiviazione (utilizzo generico v1), StorageV2 (utilizzo generico v2), BlobStorage o BlockBlobStorage.

Quando si usa il servizio collegato BLOB di Azure nel flusso di dati, l'autenticazione dell'identità gestita o dell'entità servizio non è supportata quando il tipo di account è vuoto o "Archiviazione". Specificare il tipo di account appropriato, scegliere un'autenticazione diversa o aggiornare l'account di archiviazione a utilizzo generico v2.
No
servicePrincipalId Specificare l'ID client dell'applicazione.
servicePrincipalCredentialType Tipo di credenziale da usare per l'autenticazione dell'entità servizio. I valori consentiti sono ServicePrincipalKey e ServicePrincipalCert.
servicePrincipalCredential Credenziali dell'entità servizio.
Quando si usa ServicePrincipalKey come tipo di credenziale, specificare la chiave dell'applicazione. Contrassegnare questo campo come SecureString per archiviarlo in modo sicuro o fare riferimento a un segreto archiviato in Azure Key Vault.
Quando si usa ServicePrincipalCert come credenziale, fare riferimento a un certificato in Azure Key Vault e assicurarsi che il tipo di contenuto del certificato sia PKCS #12.
tenant Specificare le informazioni sul tenant (nome di dominio o ID tenant) in cui si trova l'applicazione. Recuperarlo passando il puntatore del mouse sull'angolo superiore destro del portale di Azure.
azureCloudType Per l'autenticazione dell'entità servizio, specificare il tipo di ambiente cloud di Azure a cui è registrata l'applicazione Azure Active Directory.
I valori consentiti sono AzurePublic, AzureChina, AzureUsGovernment e AzureGermany. Per impostazione predefinita, viene usato l'ambiente cloud della data factory o della pipeline di Synapse.
No
connectVia Runtime di integrazione da usare per la connessione all'archivio dati. È possibile usare il runtime di integrazione di Azure o il runtime di integrazione self-hosted (se l'archivio dati si trova in una rete privata). Se questa proprietà non viene specificata, il servizio usa il runtime di integrazione di Azure predefinito. No

Nota

  • Se l'account BLOB abilita l'eliminazione temporanea, l'autenticazione dell'entità servizio non è supportata in Flusso di dati.
  • Se si accede all'archiviazione BLOB tramite endpoint privato usando Flusso di dati, notare quando viene usata l'autenticazione dell'entità servizio Flusso di dati si connette all'endpoint ADLS Gen2 anziché all'endpoint BLOB. Assicurarsi di creare l'endpoint privato corrispondente nell'area di lavoro data factory o Synapse per abilitare l'accesso.

Nota

L'autenticazione dell'entità servizio è supportata solo dal servizio collegato di tipo "AzureBlobStorage", non dal tipo "AzureStorage" precedente.

Esempio:

{
    "name": "AzureBlobStorageLinkedService",
    "properties": {
        "type": "AzureBlobStorage",
        "typeProperties": {            
            "serviceEndpoint": "https://<accountName>.blob.core.windows.net/",
            "accountKind": "StorageV2",
            "servicePrincipalId": "<service principal id>",
            "servicePrincipalKey": {
                "type": "SecureString",
                "value": "<service principal key>"
            },
            "tenant": "<tenant info, e.g. microsoft.onmicrosoft.com>" 
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Autenticazione dell'identità gestita assegnata dal sistema

Una data factory o una pipeline di Synapse possono essere associate a un'identità gestita assegnata dal sistema per le risorse di Azure, che rappresenta tale risorsa per l'autenticazione ad altri servizi di Azure. È possibile usare direttamente questa identità gestita assegnata dal sistema per l'autenticazione dell'archiviazione BLOB, simile all'uso dell'entità servizio personalizzata. Consente a questa risorsa designata di accedere e copiare i dati da o all'archiviazione BLOB. Per altre informazioni sulle identità gestite per le risorse di Azure, vedere Identità gestite per le risorse di Azure

Per informazioni generali sull'autenticazione di Archiviazione di Azure, vedere Autenticare l'accesso ad Archiviazione di Azure con Azure Active Directory. Per usare le identità gestite per l'autenticazione delle risorse di Azure, seguire questa procedura:

  1. Recuperare le informazioni sull'identità gestita assegnate dal sistema copiando il valore dell'ID oggetto identity gestito assegnato dal sistema generato insieme all'area di lavoro factory o Synapse.

  2. Concedere l'autorizzazione di identità gestita in Archiviazione BLOB di Azure. Per altre informazioni sui ruoli, vedere Usare il portale di Azure per assegnare un ruolo di Azure per l'accesso ai dati BLOB e code.

    • Come origine, in Controllo di accesso (IAM) concedere almeno il ruolo di lettore dati BLOB di archiviazione .
    • Come sink, in Controllo di accesso (IAM) concedere almeno il ruolo Collaboratore dati BLOB di archiviazione .

Queste proprietà sono supportate per un servizio collegato Archiviazione BLOB di Azure:

Proprietà Descrizione Obbligatoria
type La proprietà type deve essere impostata su AzureBlobStorage.
serviceEndpoint Specificare l'endpoint di servizio Archiviazione BLOB di Azure con il modello di https://<accountName>.blob.core.windows.net/.
accountKind Specificare il tipo di account di archiviazione. I valori consentiti sono: Archiviazione (utilizzo generico v1), StorageV2 (utilizzo generico v2), BLOBStorage o BlockBlobStorage.

Quando si usa il servizio collegato BLOB di Azure nel flusso di dati, l'autenticazione dell'identità gestita o dell'entità servizio non è supportata quando il tipo di account è vuoto o "Archiviazione". Specificare il tipo di account appropriato, scegliere un'autenticazione diversa o aggiornare l'account di archiviazione a utilizzo generico v2.
No
connectVia Runtime di integrazione da usare per la connessione all'archivio dati. È possibile usare il runtime di integrazione di Azure o il runtime di integrazione self-hosted (se l'archivio dati si trova in una rete privata). Se questa proprietà non è specificata, il servizio usa il runtime di integrazione di Azure predefinito. No

Esempio:

{
    "name": "AzureBlobStorageLinkedService",
    "properties": {
        "type": "AzureBlobStorage",
        "typeProperties": {            
            "serviceEndpoint": "https://<accountName>.blob.core.windows.net/",
            "accountKind": "StorageV2" 
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Autenticazione dell'identità gestita assegnata dall'utente

Una data factory può essere assegnata con una o più identità gestite assegnate dall'utente. È possibile usare questa identità gestita assegnata dall'utente per l'autenticazione dell'archiviazione BLOB, che consente di accedere e copiare i dati da o nell'archivio BLOB. Per altre informazioni sulle identità gestite per le risorse di Azure, vedere Identità gestite per le risorse di Azure

Per informazioni generali sull'autenticazione dell'archiviazione di Azure, vedere Autenticare l'accesso ad Archiviazione di Azure con Azure Active Directory. Per usare l'autenticazione dell'identità gestita assegnata dall'utente, seguire questa procedura:

  1. Creare una o più identità gestite assegnate dall'utente e concedere l'autorizzazione in Archiviazione BLOB di Azure. Per altre informazioni sui ruoli, vedere Usare il portale di Azure per assegnare un ruolo di Azure per l'accesso ai dati BLOB e code.

    • Come origine, in Controllo di accesso (IAM) concedere almeno il ruolo di lettore dati BLOB di archiviazione .
    • Come sink, in Controllo di accesso (IAM) concedere almeno il ruolo Collaboratore dati BLOB di archiviazione .
  2. Assegnare una o più identità gestite assegnate dall'utente alla data factory e creare le credenziali per ogni identità gestita assegnata dall'utente.

Queste proprietà sono supportate per un servizio collegato Archiviazione BLOB di Azure:

Proprietà Descrizione Obbligatoria
type La proprietà type deve essere impostata su AzureBlobStorage.
serviceEndpoint Specificare l'endpoint di servizio Archiviazione BLOB di Azure con il modello di https://<accountName>.blob.core.windows.net/.
accountKind Specificare il tipo di account di archiviazione. I valori consentiti sono: Archiviazione (utilizzo generico v1), StorageV2 (utilizzo generico v2), BLOBStorage o BlockBlobStorage.

Quando si usa il servizio collegato BLOB di Azure nel flusso di dati, l'autenticazione dell'identità gestita o dell'entità servizio non è supportata quando il tipo di account è vuoto o "Archiviazione". Specificare il tipo di account appropriato, scegliere un'autenticazione diversa o aggiornare l'account di archiviazione a utilizzo generico v2.
No
credentials Specificare l'identità gestita assegnata dall'utente come oggetto credenziali.
connectVia Runtime di integrazione da usare per la connessione all'archivio dati. È possibile usare il runtime di integrazione di Azure o il runtime di integrazione self-hosted (se l'archivio dati si trova in una rete privata). Se questa proprietà non è specificata, il servizio usa il runtime di integrazione di Azure predefinito. No

Esempio:

{
    "name": "AzureBlobStorageLinkedService",
    "properties": {
        "type": "AzureBlobStorage",
        "typeProperties": {            
            "serviceEndpoint": "https://<accountName>.blob.core.windows.net/",
            "accountKind": "StorageV2",
            "credential": {
                "referenceName": "credential1",
                "type": "CredentialReference"
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Importante

Se si usa l'istruzione PolyBase o COPY per caricare i dati dall'archiviazione BLOB (come origine o come gestione temporanea) in Azure Synapse Analytics, quando si usa l'autenticazione gestita per l'archiviazione BLOB, assicurarsi di seguire anche i passaggi da 1 a 3 in questa guida. Questi passaggi registrano il server con Azure AD e assegnano il ruolo Collaboratore dati BLOB di archiviazione al server. Data Factory gestisce il resto. Se si configura l'archiviazione BLOB con un endpoint di Rete virtuale di Azure, è necessario disporre anche di consentire ai servizi Microsoft attendibili di accedere a questo account di archiviazione attivato nel menu Firewall dell'account di archiviazione di Azure e impostazioni reti virtuali, come richiesto da Azure Synapse.

Nota

  • Se l'account BLOB abilita l'eliminazione temporanea, l'autenticazione dell'identità gestita assegnata dall'utente/assegnata dall'utente non è supportata in Flusso di dati.
  • Se si accede all'archiviazione BLOB tramite endpoint privato usando Flusso di dati, notare quando viene usata l'autenticazione dell'identità gestita assegnata dal sistema/assegnata dall'utente Flusso di dati si connette all'endpoint ADLS Gen2 anziché all'endpoint BLOB. Assicurarsi di creare l'endpoint privato corrispondente in ADF per abilitare l'accesso.

Nota

L'autenticazione dell'identità gestita assegnata dal sistema assegnata dall'utente è supportata solo dal servizio collegato di tipo "AzureBlobStorage", non dal precedente servizio collegato "AzureStorage".

Proprietà del set di dati

Per un elenco completo delle sezioni e delle proprietà disponibili per la definizione dei set di dati, vedere l'articolo Set di dati.

Azure Data Factory supporta i formati di file seguenti. Per impostazioni basate sui formati, fare riferimento ai singoli articoli.

Le proprietà seguenti sono supportate per Archiviazione BLOB di Azure in location impostazioni in un set di dati basato su formato:

Proprietà Descrizione Obbligatoria
type La proprietà type della posizione nel set di dati deve essere impostata su AzureBlobStorageLocation.
contenitore Contenitore BLOB.
folderPath Percorso della cartella nel contenitore specificato. Se si vuole usare un carattere jolly per filtrare la cartella, ignorare questa impostazione e specificarla nelle impostazioni dell'origine attività. No
fileName Nome del file nel contenitore e nel percorso della cartella specificati. Se si vuole usare il carattere jolly per filtrare i file, ignorare questa impostazione e specificarla nelle impostazioni dell'origine dell'attività. No

Esempio:

{
    "name": "DelimitedTextDataset",
    "properties": {
        "type": "DelimitedText",
        "linkedServiceName": {
            "referenceName": "<Azure Blob Storage linked service name>",
            "type": "LinkedServiceReference"
        },
        "schema": [ < physical schema, optional, auto retrieved during authoring > ],
        "typeProperties": {
            "location": {
                "type": "AzureBlobStorageLocation",
                "container": "containername",
                "folderPath": "folder/subfolder"
            },
            "columnDelimiter": ",",
            "quoteChar": "\"",
            "firstRowAsHeader": true,
            "compressionCodec": "gzip"
        }
    }
}

Proprietà dell'attività di copia

Per un elenco completo delle sezioni e delle proprietà disponibili per la definizione delle attività, vedere l'articolo sulle pipeline. In questa sezione viene fornito un elenco delle proprietà supportate dall'origine e dal sink dell'archiviazione BLOB.

Archiviazione BLOB come tipo di origine

Azure Data Factory supporta i formati di file seguenti. Per impostazioni basate sui formati, fare riferimento ai singoli articoli.

Le proprietà seguenti sono supportate per Archiviazione BLOB di Azure nelle storeSettings impostazioni in un'origine di copia basata sul formato:

Proprietà Descrizione Obbligatoria
type La proprietà type in storeSettings deve essere impostata su AzureBlobStorageReadSettings.
Individuare i file da copiare:
OPZIONE 1: percorso statico
Copia dal percorso del contenitore o della cartella/file specificato nel set di dati. Se si desidera copiare tutti i BLOB da un contenitore o da una cartella, specificare wildcardFileName anche come *.
OPZIONE 2: prefisso BLOB
- prefisso
Prefisso per il nome del BLOB nel contenitore specificato configurato in un set di dati per filtrare i BLOB di origine. BLOB i cui nomi iniziano con container_in_dataset/this_prefix sono selezionati. Usa il filtro lato servizio per l'archiviazione BLOB, che offre prestazioni migliori rispetto a un filtro con caratteri jolly.

Quando si usa il prefisso e si sceglie di copiare nel sink basato su file con mantenimento della gerarchia, prendere nota del sottopercorso dopo l'ultimo prefisso "/" nel prefisso. Ad esempio, si dispone di origine container/folder/subfolder/file.txte si configura il prefisso come folder/sub, quindi il percorso del file mantenuto è subfolder/file.txt.
No
OPZIONE 3: carattere jolly
- wildcardFolderPath
Percorso della cartella con caratteri jolly nel contenitore specificato configurato in un set di dati per filtrare le cartelle di origine.
I caratteri jolly consentiti sono: * (corrispondenza di zero o più caratteri) e ? (corrispondenza di zero caratteri o di un carattere singolo). Usare ^ per eseguire l'escape se il nome della cartella contiene caratteri jolly o questo carattere di escape.
Vedere altri esempi in Esempi di filtro file e cartelle.
No
OPZIONE 3: carattere jolly
- wildcardFileName
Nome file con caratteri jolly nel contenitore e nel percorso della cartella specificato (o percorso della cartella con caratteri jolly) per filtrare i file di origine.
I caratteri jolly consentiti sono: * (corrispondenza di zero o più caratteri) e ? (corrispondenza di zero caratteri o di un carattere singolo). Utilizzare ^ per eseguire l'escape se il nome del file ha un carattere jolly o questo carattere di escape all'interno. Vedere altri esempi in Esempi di filtro file e cartelle.
OPZIONE 4: un elenco di file
- fileListPath
Indica di copiare un determinato set di file. Puntare a un file di testo che include un elenco di file da copiare, un file per riga, ovvero il percorso relativo al percorso configurato nel set di dati.
Quando si usa questa opzione, non specificare un nome file nel set di dati. Per altri esempi, vedere Esempi di elenco di file.
No
Impostazioni aggiuntive:
ricorsiva Indica se i dati vengono letti in modo ricorsivo dalle cartelle secondarie o solo dalla cartella specificata. Si noti che quando la ricorsiva è impostata su true e il sink è un archivio basato su file, una cartella o una sottocartella vuota non viene copiata o creata nel sink.
I valori consentiti sono true (predefinito) e false.
Questa proprietà non è applicabile quando si configura fileListPath.
No
deleteFilesAfterCompletion Indica se i file binari verranno eliminati dall'archivio di origine dopo il corretto spostamento nell'archivio di destinazione. L'eliminazione del file è per ogni file, quindi quando l'attività di copia ha esito negativo, si noterà che alcuni file sono già stati copiati nella destinazione ed eliminati dall'origine, mentre altri rimangono nell'archivio di origine.
Questa proprietà è valida solo nello scenario di copia dei file binari. Valore predefinito: false.
No
modifiedDatetimeStart I file vengono filtrati in base all'attributo: ultima modifica.
I file verranno selezionati se l'ora dell'ultima modifica è maggiore o uguale a modifiedDatetimeStart e minore di modifiedDatetimeEnd. L'ora viene applicata a un fuso orario UTC nel formato "2018-12-01T05:00:00Z".
Le proprietà possono essere NULL, il che significa che al set di dati non verrà applicato alcun filtro di attributo di file. Se modifiedDatetimeStart ha un valore datetime ma modifiedDatetimeEnd è NULL, verranno selezionati i file il cui ultimo attributo modificato è maggiore o uguale al valore datetime. Quando modifiedDatetimeEnd ha un valore datetime ma modifiedDatetimeStart è NULL, verranno selezionati i file il cui attributo modificato è minore del valore datetime.
Questa proprietà non è applicabile quando si configura fileListPath.
No
modifiedDatetimeEnd Come sopra. No
enablePartitionDiscovery Per i file partizionati, specificare se analizzare le partizioni dal percorso del file e aggiungerle come colonne di origine aggiuntive.
I valori consentiti sono false (impostazione predefinita) e true.
No
partitionRootPath Quando l'individuazione delle partizioni è abilitata, specificare il percorso radice assoluto per leggere le cartelle partizionate come colonne di dati.

Se non è specificato, per impostazione predefinita,
- Quando si usa il percorso del file nel set di dati o nell'elenco di file nell'origine, il percorso radice della partizione è il percorso configurato nel set di dati.
- Quando si usa il filtro della cartella con caratteri jolly, il percorso radice della partizione è il sottopercorso prima del primo carattere jolly.
- Quando si usa il prefisso, il percorso radice della partizione è sottopercorso prima dell'ultimo "/".

Si supponga, ad esempio, di configurare il percorso nel set di dati come "root/folder/year=2020/month=08/day=27":
- Se si specifica il percorso radice della partizione come "root/folder/year=2020", l'attività di copia genererà altre due colonne month e day con il valore "08" e "27" rispettivamente, oltre alle colonne all'interno dei file.
- Se il percorso radice della partizione non viene specificato, non verrà generata alcuna colonna aggiuntiva.
No
maxConcurrentConnections Limite massimo di connessioni simultanee stabilite all'archivio dati durante l'esecuzione dell'attività. Specificare un valore solo quando si desidera limitare le connessioni simultanee. No

Nota

Per il formato di testo parquet/delimitato, il tipo BlobSource per l'origine attività Copy menzionata nella sezione successiva è ancora supportato così come per la compatibilità con le versioni precedenti. È consigliabile usare il nuovo modello fino a quando l'interfaccia utente di creazione non è passata alla generazione di questi nuovi tipi.

Esempio:

"activities":[
    {
        "name": "CopyFromBlob",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Delimited text input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "DelimitedTextSource",
                "formatSettings":{
                    "type": "DelimitedTextReadSettings",
                    "skipLineCount": 10
                },
                "storeSettings":{
                    "type": "AzureBlobStorageReadSettings",
                    "recursive": true,
                    "wildcardFolderPath": "myfolder*A",
                    "wildcardFileName": "*.csv"
                }
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Nota

Il $logs contenitore, che viene creato automaticamente quando Analisi archiviazione è abilitato per un account di archiviazione, non viene visualizzato quando viene eseguita un'operazione di presentazione del contenitore tramite l'interfaccia utente. Il percorso del file deve essere fornito direttamente per la data factory o la pipeline di Synapse per utilizzare i file dal $logs contenitore.

Archiviazione BLOB come tipo di sink

Azure Data Factory supporta i formati di file seguenti. Per impostazioni basate sui formati, fare riferimento ai singoli articoli.

Le proprietà seguenti sono supportate per Archiviazione BLOB di Azure nelle storeSettings impostazioni in un sink di copia basato sul formato:

Proprietà Descrizione Obbligatoria
type La type proprietà in storeSettings deve essere impostata su AzureBlobStorageWriteSettings.
copyBehavior Definisce il comportamento di copia quando l'origine è costituita da file di un archivio dati basato su file.

I valori consentiti sono i seguenti:
- PreserveHierarchy (impostazione predefinita): mantiene la gerarchia dei file nella cartella di destinazione. Il percorso relativo del file di origine nella cartella di origine è identico al percorso relativo del file di destinazione nella cartella di destinazione.
- FlattenHierarchy: tutti i file della cartella di origine si trovano nel primo livello della cartella di destinazione. I nomi dei file di destinazione vengono generati automaticamente.
- MergeFiles: unisce tutti i file della cartella di origine in un solo file. Se viene specificato il nome del file o del BLOB , il nome del file unito sarà il nome specificato. In caso contrario, verrà usato un nome di file generato automaticamente.
No
blockSizeInMB Specificare le dimensioni del blocco, in megabyte, usate per scrivere dati in BLOB in blocchi. Altre informazioni sui BLOB in blocchi.
Il valore consentito è compreso tra 4 MB e 100 MB.
Per impostazione predefinita, il servizio determina automaticamente le dimensioni del blocco in base al tipo di archivio di origine e ai dati. Per la copia nonbinary nell'archiviazione BLOB, le dimensioni predefinite del blocco sono pari a 100 MB, in modo che possano rientrare (al massimo) 4,95 TB di dati. Potrebbe non essere ottimale quando i dati non sono di grandi dimensioni, soprattutto quando si usa il runtime di integrazione self-hosted con connessioni di rete scarse che generano problemi di timeout o prestazioni dell'operazione. È possibile specificare in modo esplicito una dimensione del blocco, assicurandosi che blockSizeInMB*50000 sia sufficientemente grande da archiviare i dati. In caso contrario, l'esecuzione del attività Copy avrà esito negativo.
No
maxConcurrentConnections Limite massimo di connessioni simultanee stabilite all'archivio dati durante l'esecuzione dell'attività. Specificare un valore solo quando si desidera limitare le connessioni simultanee. No
metadata Impostare metadati personalizzati quando si esegue la copia nel sink. Ogni oggetto nella metadata matrice rappresenta una colonna aggiuntiva. Definisce name il nome della chiave di metadati e value indica il valore dei dati di tale chiave. Se viene usata la funzionalità mantieni attributi , i metadati specificati si uniranno/sovrascriveranno con i metadati del file di origine.

I valori dei dati consentiti sono:
- $$LASTMODIFIED: una variabile riservata indica di archiviare l'ora dell'ultima modifica dei file di origine. Si applica all'origine basata su file solo con formato binario.
- Espressione
- Valore statico
No

Esempio:

"activities":[
    {
        "name": "CopyFromBlob",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<Parquet output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "<source type>"
            },
            "sink": {
                "type": "ParquetSink",
                "storeSettings":{
                    "type": "AzureBlobStorageWriteSettings",
                    "copyBehavior": "PreserveHierarchy",
                    "metadata": [
                        {
                            "name": "testKey1",
                            "value": "value1"
                        },
                        {
                            "name": "testKey2",
                            "value": "value2"
                        },
                        {
                            "name": "lastModifiedKey",
                            "value": "$$LASTMODIFIED"
                        }
                    ]
                }
            }
        }
    }
]

Esempi di filtro file e cartelle

Questa sezione descrive il comportamento risultante del percorso cartella e del nome del file con i filtri con caratteri jolly.

folderPath fileName ricorsiva Struttura delle cartelle di origine e risultato del filtro (i file in grassetto sono stati recuperati)
container/Folder* (vuoto, usare valore predefinito) false contenitore
    CartellaA
        File1.csv
        File2.json
        Sottocartella1
            File3.csv
            File4.json
            File5.csv
    AltraCartellaB
        File6.csv
container/Folder* (vuoto, usare valore predefinito) true contenitore
    CartellaA
        File1.csv
        File2.json
        Sottocartella1
            File3.csv
            File4.json
            File5.csv
    AltraCartellaB
        File6.csv
container/Folder* *.csv false contenitore
    CartellaA
        File1.csv
        File2.json
        Sottocartella1
            File3.csv
            File4.json
            File5.csv
    AltraCartellaB
        File6.csv
container/Folder* *.csv true contenitore
    CartellaA
        File1.csv
        File2.json
        Sottocartella1
            File3.csv
            File4.json
            File5.csv
    AltraCartellaB
        File6.csv

Esempi di elenco di file

In questa sezione viene descritto il comportamento risultante dell'uso di un percorso dell'elenco di file nell'origine attività Copy.

Si supponga di avere la struttura di cartelle di origine seguente e di voler copiare i file in grassetto:

Esempio di struttura di origine Contenuto in FileListToCopy.txt Configurazione
contenitore
    CartellaA
        File1.csv
        File2.json
        Sottocartella1
            File3.csv
            File4.json
            File5.csv
    Metadati
        FileListToCopy.txt
File1.csv
Sottocartella1/File3.csv
Sottocartella1/File5.csv
Nel set di dati:
- Contenitore: container
- Percorso cartella: FolderA

Nell'origine attività Copy:
- Percorso elenco file: container/Metadata/FileListToCopy.txt

Il percorso dell'elenco di file punta a un file di testo nello stesso archivio dati che include un elenco di file da copiare, un file per riga, con il percorso relativo al percorso configurato nel set di dati.

Alcuni esempi dei valori recursive e copyBehavior

In questa sezione viene descritto il comportamento risultante dell'operazione di copia per diverse combinazioni di valori ricorsivi e copyBehavior .

ricorsiva copyBehavior Struttura della cartella di origine Destinazione risultante
true preserveHierarchy Cartella1
    File1
    File2
    Sottocartella1
        File3
        File4
        File5
La cartella di destinazione, Folder1, viene creata con la stessa struttura dell'origine:

Cartella1
    File1
    File2
    Sottocartella1
        File3
        File4
        File5
true flattenHierarchy Cartella1
    File1
    File2
    Sottocartella1
        File3
        File4
        File5
La cartella di destinazione, Folder1, viene creata con la struttura seguente:

Cartella1
    Nome generato automaticamente per File1
    Nome generato automaticamente per File2
    Nome generato automaticamente per File3
    Nome generato automaticamente per File4
    Nome generato automaticamente per File5
true mergeFiles Cartella1
    File1
    File2
    Sottocartella1
        File3
        File4
        File5
La cartella di destinazione, Folder1, viene creata con la struttura seguente:

Cartella1
    Il contenuto di File1 + File2 + File3 + File4 + File 5 viene unito in un file con nome generato automaticamente.
false preserveHierarchy Cartella1
    File1
    File2
    Sottocartella1
        File3
        File4
        File5
La cartella di destinazione, Folder1, viene creata con la struttura seguente:

Cartella1
    File1
    File2

La sottocartella1 con File3, File4 e File5 non viene considerata.
false flattenHierarchy Cartella1
    File1
    File2
    Sottocartella1
        File3
        File4
        File5
La cartella di destinazione, Folder1, viene creata con la struttura seguente:

Cartella1
    Nome generato automaticamente per File1
    Nome generato automaticamente per File2

La sottocartella1 con File3, File4 e File5 non viene considerata.
false mergeFiles Cartella1
    File1
    File2
    Sottocartella1
        File3
        File4
        File5
La cartella di destinazione, Folder1, viene creata con la struttura seguente:

Cartella1
    Il contenuto di File1 + File2 viene unito in un file con un nome di file generato automaticamente. Nome generato automaticamente per File1

La sottocartella1 con File3, File4 e File5 non viene considerata.

Mantenimento dei metadati durante la copia

Quando si copiano file da Amazon S3, Archiviazione BLOB di Azure o Azure Data Lake Storage Gen2 a Azure Data Lake Storage Gen2 o Archiviazione BLOB di Azure, è possibile scegliere di conservare il file metadati insieme ai dati. Altre informazioni in Mantenere i metadati.

Proprietà del flusso di dati per mapping

Quando si trasformano i dati nei flussi di dati di mapping, è possibile leggere e scrivere file da Archiviazione BLOB di Azure nei formati seguenti:

Le impostazioni specifiche del formato si trovano nella documentazione per tale formato. Per altre informazioni, vedere Trasformazione origine nel flusso di dati di mapping e Trasformazione Sink nel flusso di dati di mapping.

Trasformazione origine

Nella trasformazione dell'origine è possibile leggere da un contenitore, da una cartella o da un singolo file in Archiviazione BLOB di Azure. Usare la scheda Opzioni di origine per gestire la modalità di lettura dei file.

Opzioni origine

Percorsi con caratteri jolly: L'uso di un criterio con caratteri jolly indicherà al servizio di scorrere ogni cartella e file corrispondente in una singola trasformazione di origine. Si tratta di un modo efficace per elaborare più file all'interno di un singolo flusso. Aggiungere più criteri di corrispondenza con caratteri jolly con il segno più visualizzato quando si passa il puntatore del mouse sul modello con caratteri jolly esistenti.

Nel contenitore di origine scegliere una serie di file che corrispondono a un criterio. Nel set di dati è possibile specificare solo un contenitore. Il percorso con caratteri jolly deve quindi includere anche il percorso della cartella a partire dalla cartella radice.

Esempi di caratteri jolly:

  • * Rappresenta qualsiasi set di caratteri.

  • ** Rappresenta l'annidamento di directory ricorsive.

  • ? Sostituisce un carattere.

  • [] Trova la corrispondenza con uno o più caratteri tra parentesi quadre.

  • /data/sales/**/*.csv Ottiene tutti i file .csv in /data/sales.

  • /data/sales/20??/**/ Ottiene tutti i file del XX secolo.

  • /data/sales/*/*/*.csv Ottiene .csv file due livelli in /data/sales.

  • /data/sales/2004/*/12/[XY]1?.csv Ottiene tutti i file .csv nel dicembre 2004 a partire da X o Y preceduti da un numero a due cifre.

Percorso radice partizione: Se nell'origine file sono presenti cartelle partizionate con un key=value formato ,ad esempio year=2019, è possibile assegnare il livello superiore dell'albero delle cartelle di partizione a un nome di colonna nel flusso di dati del flusso di dati.

Impostare prima di tutto un carattere jolly per includere tutti i percorsi che sono le cartelle partizionate e i file foglia da leggere.

Impostazioni file di origine partizione

Usare l'impostazione Percorso radice partizione per definire il livello superiore della struttura di cartelle. Quando si visualizzano i contenuti dei dati tramite un'anteprima dei dati, si noterà che il servizio aggiungerà le partizioni risolte trovate in ognuno dei livelli di cartella.

Percorso radice partizione

Elenco di file: set di file. Creare un file di testo che includa un elenco di file di percorsi relativi da elaborare. Puntare a questo file di testo.

Column to store file name (Colonna in cui archiviare il nome del file): archiviare il nome del file di origine in una colonna relativa ai dati. Immettere un nuovo nome di colonna per archiviare la stringa del nome file.

After completion (Dopo il completamento): scegliere di non eseguire alcuna operazione con il file di origine dopo l'esecuzione del flusso di dati, eliminare il file di origine oppure spostare il file di origine. I percorsi per lo spostamento sono relativi.

Per spostare i file di origine in un altro percorso dopo l'elaborazione, selezionare "Sposta" come operazione sul file. Impostare quindi la directory "da". Se non si usano caratteri jolly per il percorso, l'impostazione "da" sarà la stessa cartella della cartella di origine.

Se si dispone di un percorso di origine con caratteri jolly, la sintassi sarà simile alla seguente:

/data/sales/20??/**/*.csv

È possibile specificare "from" come:

/data/sales

È anche possibile specificare "to" come:

/backup/priorSales

In questo caso, tutti i file di origine /data/sales in vengono spostati in /backup/priorSales.

Nota

Le operazioni sui file vengono eseguite solo quando si avvia il flusso di dati da un'esecuzione di pipeline (esecuzione del debug o esecuzione della pipeline) che usa l'attività di esecuzione del flusso di dati in una pipeline. Le operazioni sui file non vengono eseguite in modalità di debug del flusso di dati.

Filter by last modified (Filtra in base a ultima modifica): è possibile filtrare i file elaborati specificando un intervallo di date relative all'ultima modifica. Tutte le datetime sono in formato UTC.

Abilitare l'acquisizione dei dati di modifica: Se true, si otterranno file nuovi o modificati solo dall'ultima esecuzione. Il caricamento iniziale dei dati di snapshot completi verrà sempre ottenuto nella prima esecuzione, seguito dall'acquisizione di file nuovi o modificati solo nelle esecuzioni successive. Per altre informazioni, vedere Change Data Capture.

Screenshot che mostra Abilitare l'acquisizione dei dati di modifica.

Proprietà sink

Nella trasformazione sink è possibile scrivere in un contenitore o in una cartella in Archiviazione BLOB di Azure. Usare la scheda Impostazioni per gestire la scrittura dei file.

Opzioni sink

Clear the folder (Cancellare la cartella): determina se la cartella di destinazione viene cancellata prima della scrittura dei dati.

File name option (Opzione nome file): determina la modalità di denominazione dei file finali nella cartella di destinazione. Le opzioni di nomi di file sono indicate di seguito:

  • Predefinita: consente a Spark di denominare i file basati sulle impostazioni predefinite di PART.
  • Pattern (Modello): consente di immettere un modello che enumera i file di output per partizione. Ad esempio, loans[n].csv creerà loans1.csv, loans2.csve così via.
  • Per partition (Per partizione): consente di immettere un nome di file per partizione.
  • As data in column (Come dati in colonna): consente di impostare il file di output sul valore di una colonna. Il percorso è relativo al contenitore del set di dati e non alla cartella di destinazione. Se nel set di dati è presente un percorso di cartella, quest'ultimo verrà ignorato.
  • Output to a single file (Output in un singolo file): consente di combinare i file di output partizionati in un singolo file denominato. Il percorso è relativo alla cartella del set di dati. Tenere presente che l'operazione di merge può eventualmente non riuscire in base alle dimensioni del nodo. Non è consigliabile questa opzione per set di dati di grandi dimensioni.

Virgolette tutte: Determina se racchiudere tutti i valori tra virgolette.

Proprietà dell'attività Lookup

Per altre informazioni sulle proprietà, vedere Attività Lookup.

Proprietà dell'attività GetMetadata

Per informazioni dettagliate sulle proprietà, selezionare l'attività GetMetadata.

Proprietà dell'attività Delete

Per informazioni dettagliate sulle proprietà, selezionare Elimina attività.

Modalità legacy

Nota

I modelli seguenti sono ancora supportati come per la compatibilità con le versioni precedenti. È consigliabile usare il nuovo modello indicato in precedenza. L'interfaccia utente di creazione è passata alla generazione del nuovo modello.

Modello di set di dati legacy

Proprietà Descrizione Obbligatoria
type La type proprietà del set di dati deve essere impostata su AzureBlob.
folderPath Percorso del contenitore e della cartella nell'archiviazione BLOB.

Un filtro con caratteri jolly è supportato per il percorso, escluso il nome del contenitore. I caratteri jolly consentiti sono: * (corrispondenza di zero o più caratteri) e ? (corrispondenza di zero caratteri o di un carattere singolo). Usare ^ per eseguire l'escape se il nome della cartella ha un carattere jolly o questo carattere di escape all'interno.

Ad esempio: myblobcontainer/myblobfolder/. Vedere altri esempi in Esempi di filtro file e cartelle.
Sì per l'attività Copia o Ricerca, No per l'attività GetMetadata
fileName Nome o filtro jolly per i BLOB nel valore specificato folderPath . Se non si specifica alcun valore per questa proprietà, il set di dati punta a tutti i BLOB nella cartella.

Per il filtro, i caratteri jolly consentiti sono: * (corrisponde a zero o più caratteri) e ? (corrisponde a zero o singolo carattere).
- Esempio 1: "fileName": "*.csv"
- Esempio 2: "fileName": "???20180427.txt"
Usare ^ per eseguire l'escape se il nome del file ha un carattere jolly o questo carattere di escape all'interno.

Quando fileName non viene specificato per un set di dati di output e preserveHierarchy non viene specificato nel sink attività, il attività Copy genera automaticamente il nome del BLOB con il modello seguente: "Data.[ GUID dell'esecuzione dell'attività]. [GUID se FlattenHierarchy]. [formato se configurato]. [compressione se configurata]". Ad esempio: "Data.0a405f8a-93ff-4c6f-b3be-f69616f1df7a.txt.gz".

Se si copia da un'origine tabulare usando un nome di tabella anziché una query, il modello di nome è [table name].[format].[compression if configured]. Ad esempio: "MyTable.csv".
No
modifiedDatetimeStart I file vengono filtrati in base all'attributo: ultima modifica. I file verranno selezionati se l'ultima volta modificata è maggiore o uguale a modifiedDatetimeStart e minore di modifiedDatetimeEnd. L'ora viene applicata in base al fuso orario UTC nel formato "2018-12-01T05:00:00Z".

Tenere presente che l'abilitazione di questa impostazione influisce sulle prestazioni complessive dello spostamento dei dati quando si desidera filtrare grandi quantità di file.

Le proprietà possono essere NULL, il che significa che non verrà applicato alcun filtro di attributo file al set di dati. Quando modifiedDatetimeStart ha un valore datetime ma modifiedDatetimeEnd è NULL, i file l'ultimo attributo modificato è maggiore o uguale al valore datetime verrà selezionato. Quando modifiedDatetimeEnd ha un valore datetime ma modifiedDatetimeStart è NULL, i file l'ultimo attributo modificato è minore del valore datetime verrà selezionato.
No
modifiedDatetimeEnd I file vengono filtrati in base all'attributo: ultima modifica. I file verranno selezionati se l'ultima volta modificata è maggiore o uguale a modifiedDatetimeStart e minore di modifiedDatetimeEnd. L'ora viene applicata in base al fuso orario UTC nel formato "2018-12-01T05:00:00Z".

Tenere presente che l'abilitazione di questa impostazione influisce sulle prestazioni complessive dello spostamento dei dati quando si desidera filtrare grandi quantità di file.

Le proprietà possono essere NULL, il che significa che non verrà applicato alcun filtro di attributo file al set di dati. Quando modifiedDatetimeStart ha un valore datetime ma modifiedDatetimeEnd è NULL, i file l'ultimo attributo modificato è maggiore o uguale al valore datetime verrà selezionato. Quando modifiedDatetimeEnd ha un valore datetime ma modifiedDatetimeStart è NULL, i file l'ultimo attributo modificato è minore del valore datetime verrà selezionato.
No
format Per copiare i file così come sono tra archivi basati su file (copia binaria), è possibile ignorare la sezione del formato nelle definizioni dei set di dati di input e di output.

Se si vuole analizzare o generare file con un formato specifico, sono supportati i tipi di formato file seguenti: TextFormat, JsonFormat, AvroFormat, OrcFormat e ParquetFormat. Impostare la proprietà type in format su uno di questi valori. Per altre informazioni, vedere le sezioni Formato testo, Formato JSON, Formato AVRO, Formato OCR e Formato Parquet.
No (solo per uno scenario di copia binaria)
compressione Specificare il tipo e il livello di compressione dei dati. Per altre informazioni, vedere l'articolo sui formati di file supportati e i codec di compressione.
I tipi supportati sono GZip, Deflate, BZip2 e ZipDeflate.
I livelli supportati sono Ottimale e Più veloce.
No

Suggerimento

Per copiare tutti i BLOB in una cartella, specificare solo folderPath.
Per copiare un singolo BLOB con un nome specificato, specificare folderPath per la parte della cartella e fileName per il nome del file.
Per copiare un subset di BLOB in una cartella, specificare folderPath per la parte della cartella e fileName con un filtro con caratteri jolly.

Esempio:

{
    "name": "AzureBlobDataset",
    "properties": {
        "type": "AzureBlob",
        "linkedServiceName": {
            "referenceName": "<Azure Blob Storage linked service name>",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "folderPath": "mycontainer/myfolder",
            "fileName": "*",
            "modifiedDatetimeStart": "2018-12-01T05:00:00Z",
            "modifiedDatetimeEnd": "2018-12-01T06:00:00Z",
            "format": {
                "type": "TextFormat",
                "columnDelimiter": ",",
                "rowDelimiter": "\n"
            },
            "compression": {
                "type": "GZip",
                "level": "Optimal"
            }
        }
    }
}

Modello di origine legacy per il attività Copy

Proprietà Descrizione Obbligatoria
type La type proprietà dell'origine attività Copy deve essere impostata su BlobSource.
ricorsiva Indica se i dati vengono letti in modo ricorsivo dalle cartelle secondarie o solo dalla cartella specificata. Si noti che quando recursive è impostato su true e il sink è un archivio basato su file, una cartella vuota o una sottocartella non viene copiata o creata nel sink.
I valori consentiti sono true (impostazione predefinita) e false.
No
maxConcurrentConnections Limite superiore delle connessioni simultanee stabilite nell'archivio dati durante l'esecuzione dell'attività. Specificare un valore solo quando si desidera limitare le connessioni simultanee. No

Esempio:

"activities":[
    {
        "name": "CopyFromBlob",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Azure Blob input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "BlobSource",
                "recursive": true
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Modello sink legacy per il attività Copy

Proprietà Descrizione Obbligatoria
type La type proprietà del sink attività Copy deve essere impostata su BlobSink.
copyBehavior Definisce il comportamento di copia quando l'origine è costituita da file di un archivio dati basato su file.

I valori consentiti sono i seguenti:
- PreserveHierarchy (impostazione predefinita): mantiene la gerarchia dei file nella cartella di destinazione. Il percorso relativo del file di origine nella cartella di origine è identico al percorso relativo del file di destinazione nella cartella di destinazione.
- FlattenHierarchy: tutti i file della cartella di origine si trovano nel primo livello della cartella di destinazione. I nomi dei file di destinazione vengono generati automaticamente.
- MergeFiles: unisce tutti i file della cartella di origine in un solo file. Se viene specificato il nome del file o del BLOB , il nome del file unito sarà il nome specificato. In caso contrario, verrà usato un nome di file generato automaticamente.
No
maxConcurrentConnections Limite superiore delle connessioni simultanee stabilite nell'archivio dati durante l'esecuzione dell'attività. Specificare un valore solo quando si desidera limitare le connessioni simultanee. No

Esempio:

"activities":[
    {
        "name": "CopyToBlob",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<Azure Blob output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "<source type>"
            },
            "sink": {
                "type": "BlobSink",
                "copyBehavior": "PreserveHierarchy"
            }
        }
    }
]

Modifica acquisizione dati (anteprima)

Azure Data Factory può ottenere file nuovi o modificati solo da Archiviazione BLOB di Azure abilitando Abilita l'acquisizione dei dati di modifica (anteprima) nella trasformazione origine del flusso di dati di mapping. Con questa opzione del connettore è possibile leggere solo file nuovi o aggiornati e applicare trasformazioni prima di caricare i dati trasformati in set di dati di destinazione desiderati.

Assicurarsi di mantenere invariato il nome della pipeline e dell'attività, in modo che il checkpoint possa sempre essere registrato dall'ultima esecuzione per ottenere modifiche da questa posizione. Se si modifica il nome della pipeline o il nome dell'attività, il checkpoint verrà reimpostato e si inizierà dall'inizio dell'esecuzione successiva.

Quando si esegue il debug della pipeline, l'opzione Abilita l'acquisizione dei dati di modifica (anteprima) funziona anche. Tenere presente che il checkpoint verrà reimpostato quando si aggiorna il browser durante l'esecuzione del debug. Dopo aver soddisfatto il risultato dell'esecuzione del debug, è possibile pubblicare e attivare la pipeline. Verrà sempre avviato dall'inizio indipendentemente dal checkpoint precedente registrato dall'esecuzione di debug.

Nella sezione monitoraggio è sempre possibile eseguire nuovamente una pipeline. Quando si esegue questa operazione, le modifiche vengono sempre ottenute dal record del checkpoint nell'esecuzione della pipeline selezionata.

Passaggi successivi

Per un elenco di archivi dati supportati dall'attività Copy come origini e sink, vedere Archivi dati supportati.