Créez les jeux de données

Effectué

Un jeu de données est une vue de données nommée qui pointe ou fait référence simplement aux données que vous souhaitez utiliser dans vos activités en tant qu’entrées et sorties. Les jeux de données identifient les données dans différents magasins de données, par exemple des tables, des fichiers, des dossiers et des documents. Par exemple, un jeu de données d’objets blob Azure spécifie le conteneur et le dossier du Stockage Blob à partir duquel l’activité doit lire les données.

Un jeu de données dans Data Factory peut se définir comme un objet au sein de l’activité Copier les données, comme un objet séparé ou au format JSON pour une création par programmation, comme suit :

{
    "name": "<name of dataset>",
    "properties": {
        "type": "<type of dataset: AzureBlob, AzureSql etc...>",
        "linkedServiceName": {
                "referenceName": "<name of linked service>",
                "type": "LinkedServiceReference",
        },
        "schema": [
            {
                "name": "<Name of the column>",
                "type": "<Name of the type>"
            }
        ],
        "typeProperties": {
            "<type specific property>": "<value>",
            "<type specific property 2>": "<value 2>",
        }
    }
}

La table suivante décrit les propriétés dans le JSON ci-dessus :

Propriété Description Obligatoire
name Nom du jeu de données Oui
type Type du jeu de données. Spécifiez l’un des types pris en charge par la fabrique de données (par exemple : AzureBlob, AzureSqlTable). Oui
schéma Schéma du jeu de données. Non
typeProperties Les propriétés de type sont différentes pour chaque type (par exemple : objet blob Azure, table SQL Azure). Oui

Exemple de jeu de données

Objets blob Azure

Dans cette procédure, vous créez deux jeux de données : InputDataset et OutputDataset. Ces jeux de données sont de type Binaire. Ils font référence au service lié de stockage Azure nommé AzureStorageLinkedService. Le jeu de données d’entrée représente les données sources dans le dossier d’entrée. Dans la définition du jeu de données d’entrée, vous spécifiez le conteneur d’objets blob (adftutorial), le dossier (input) et le fichier (emp.txt) contenant les données sources. Le jeu de données de sortie représente les données qui sont copiées vers la destination. Dans la définition du jeu de données de sortie, vous spécifiez le conteneur d’objets blob (adftutorial), le dossier (output) et le fichier dans lequel les données sont copiées.

  1. Sur votre ordinateur de bureau, créez un dossier nommé ADFv2QuickStartPSH dans votre lecteur C.

  2. Dans le dossier C:\ADFv2QuickStartPSH, créez un fichier JSON nommé InputDataset.json et comportant le contenu suivant :

      {
          "name": "InputDataset",
          "properties": {
              "linkedServiceName": {
                  "referenceName": "AzureStorageLinkedService",
                  "type": "LinkedServiceReference"
              },
              "annotations": [],
              "type": "Binary",
              "typeProperties": {
                  "location": {
                      "type": "AzureBlobStorageLocation",
                      "fileName": "emp.txt",
                      "folderPath": "input",
                      "container": "adftutorial"
                  }
              }
          }
      }
    
      ```
    
    
  3. Pour créer le jeu de données : InputDataset, exécutez l’applet de commande Set-AzDataFactoryV2Dataset.

    Set-AzDataFactoryV2Dataset -DataFactoryName $DataFactory.DataFactoryName `
        -ResourceGroupName $ResGrp.ResourceGroupName -Name "InputDataset" `
        -DefinitionFile ".\InputDataset.json"
    

    Voici l'exemple de sortie :

    DatasetName       : InputDataset
    ResourceGroupName : <resourceGroupname>
    DataFactoryName   : <dataFactoryName>
    Structure         :
    Properties        : Microsoft.Azure.Management.DataFactory.Models.BinaryDataset
    
  4. Répétez les étapes pour créer le jeu de données de sortie. Créez un fichier JSON nommé OutputDataset.json dans le dossier C:\ADFv2QuickStartPSH avec le contenu suivant :

    {
        "name": "OutputDataset",
        "properties": {
            "linkedServiceName": {
                "referenceName": "AzureStorageLinkedService",
                "type": "LinkedServiceReference"
            },
            "annotations": [],
            "type": "Binary",
            "typeProperties": {
                "location": {
                    "type": "AzureBlobStorageLocation",
                    "folderPath": "output",
                    "container": "adftutorial"
                }
            }
        }
    }
    
  5. Exécutez l’applet de commande Set-AzDataFactoryV2Dataset pour créer OutDataset.

    Set-AzDataFactoryV2Dataset -DataFactoryName $DataFactory.DataFactoryName `
        -ResourceGroupName $ResGrp.ResourceGroupName -Name "OutputDataset" `
        -DefinitionFile ".\OutputDataset.json"
    

    Voici l'exemple de sortie :

    DatasetName       : OutputDataset
    ResourceGroupName : <resourceGroupname>
    DataFactoryName   : <dataFactoryName>
    Structure         :
    Properties        : Microsoft.Azure.Management.DataFactory.Models.BinaryDataset