Tworzenie zestawów danych
Zestaw danych to nazwany widok danych, który po prostu wskazuje lub odwołuje się do danych, które mają być używane w działaniach jako dane wejściowe i wyjściowe. Zestawy danych identyfikują dane w różnych magazynach danych, takich jak tabele, pliki, foldery i dokumenty. Na przykład zestaw danych obiektów blob platformy Azure określa kontener obiektów blob i folder w usłudze Blob Storage, z których działanie ma odczytywać dane.
Zestaw danych w usłudze Data Factory można zdefiniować jako obiekt w działaniu kopiowania danych jako oddzielny obiekt lub w formacie JSON na potrzeby tworzenia programowego w następujący sposób:
{
"name": "<name of dataset>",
"properties": {
"type": "<type of dataset: AzureBlob, AzureSql etc...>",
"linkedServiceName": {
"referenceName": "<name of linked service>",
"type": "LinkedServiceReference",
},
"schema": [
{
"name": "<Name of the column>",
"type": "<Name of the type>"
}
],
"typeProperties": {
"<type specific property>": "<value>",
"<type specific property 2>": "<value 2>",
}
}
}
W poniższej tabeli opisano właściwości powyższego kodu JSON:
Właściwości | Opis | Wymagania |
---|---|---|
name | Nazwa zestawu danych. | Tak |
type | Typ zestawu danych. Określ jeden z typów obsługiwanych przez usługę Data Factory (na przykład AzureBlob, AzureSqlTable). | Tak |
Schemat | Schemat zestawu danych. | Nie. |
typeProperties | Właściwości typu są różne dla każdego typu (na przykład: Azure Blob, Tabela Azure SQL). | Tak |
Przykład zestawu danych
Obiekt bob Azure
W tej procedurze tworzone są dwa zestawy danych: InputDataset i OutputDataset. Te zestawy danych są typu Binary. Odnoszą się one do połączonej usługi Azure Storage o nazwie AzureStorageLinkedService. Wejściowy zestaw danych reprezentuje dane źródłowe w folderze wejściowym. W definicji wejściowego zestawu danych określany jest kontener obiektów blob (adftutorial), folder (input) i plik (emp.txt), który zawiera dane źródłowe. Wyjściowy zestaw danych reprezentuje dane, które są kopiowane do lokalizacji docelowej. W definicji wyjściowego zestawu danych określany jest kontener obiektów blob (adftutorial), folder (output) i plik, do którego kopiowane są dane.
Na pulpicie utwórz folder o nazwie ADFv2QuickStartPSH na dysku C.
Utwórz plik JSON o nazwie InputDataset.json w folderze C:\ADFv2QuickStartPSH o następującej zawartości:
{ "name": "InputDataset", "properties": { "linkedServiceName": { "referenceName": "AzureStorageLinkedService", "type": "LinkedServiceReference" }, "annotations": [], "type": "Binary", "typeProperties": { "location": { "type": "AzureBlobStorageLocation", "fileName": "emp.txt", "folderPath": "input", "container": "adftutorial" } } } } ```
Aby utworzyć zestaw danych: InputDataset, uruchom polecenie cmdlet Set-AzDataFactoryV2Dataset.
Set-AzDataFactoryV2Dataset -DataFactoryName $DataFactory.DataFactoryName ` -ResourceGroupName $ResGrp.ResourceGroupName -Name "InputDataset" ` -DefinitionFile ".\InputDataset.json"
Oto przykładowe dane wyjściowe:
DatasetName : InputDataset ResourceGroupName : <resourceGroupname> DataFactoryName : <dataFactoryName> Structure : Properties : Microsoft.Azure.Management.DataFactory.Models.BinaryDataset
Powtórz kroki, aby utworzyć wyjściowy zestaw danych. Utwórz plik JSON o nazwie OutputDataset.json w folderze C:\ADFv2QuickStartPSH o następującej zawartości:
{ "name": "OutputDataset", "properties": { "linkedServiceName": { "referenceName": "AzureStorageLinkedService", "type": "LinkedServiceReference" }, "annotations": [], "type": "Binary", "typeProperties": { "location": { "type": "AzureBlobStorageLocation", "folderPath": "output", "container": "adftutorial" } } } }
Uruchom polecenie cmdlet Set-AzDataFactoryV2Dataset, aby utworzyć zestaw Danych OutDataset.
Set-AzDataFactoryV2Dataset -DataFactoryName $DataFactory.DataFactoryName ` -ResourceGroupName $ResGrp.ResourceGroupName -Name "OutputDataset" ` -DefinitionFile ".\OutputDataset.json"
Oto przykładowe dane wyjściowe:
DatasetName : OutputDataset ResourceGroupName : <resourceGroupname> DataFactoryName : <dataFactoryName> Structure : Properties : Microsoft.Azure.Management.DataFactory.Models.BinaryDataset