Získání aktivity metadat ve službě Azure Data Factory nebo Azure Synapse Analytics

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

Pomocí aktivity Získat metadata můžete načíst metadata všech dat ve službě Azure Data Factory nebo kanálu Synapse. Pomocí výstupu aktivity Získat metadata v podmíněných výrazech můžete provést ověření nebo využívat metadata v následných aktivitách.

Vytvoření aktivity Získání metadat pomocí uživatelského rozhraní

Pokud chcete v kanálu použít aktivitu Získat metadata, proveďte následující kroky:

  1. Vyhledejte v podokně Aktivity kanálu metadata a přetáhněte aktivitu selhání na plátno kanálu.

  2. Vyberte novou aktivitu Získat metadata na plátně, pokud ještě není vybraná, a její Nastavení kartu pro úpravu podrobností.

  3. Zvolte datovou sadu nebo vytvořte novou pomocí tlačítka Nový. Pak můžete zadat možnosti filtru a přidat sloupce z dostupných metadat datové sady.

    Shows the UI for a Get Metadata activity.

  4. Výstup aktivity použijte jako vstup do jiné aktivity, jako je aktivita Switch v tomto příkladu. Na výstup aktivity metadat můžete odkazovat kdekoli, kde je dynamický obsah podporován v jiné aktivitě.

    Shows the pipeline with a Switch activity added to handle the output of the Get Metadata activity.

  5. V editoru dynamického obsahu vyberte výstup aktivity Získat metadata, na který chcete odkazovat v jiné aktivitě.

    Shows the dynamic content editor with the output of the Get Metadata activity as the dynamic content.

Podporované funkce

Aktivita Získat metadata přebírá datovou sadu jako vstup a vrací informace o metadatech jako výstup. V současné době jsou podporovány následující konektory a odpovídající metadata pro načtení. Maximální velikost vrácených metadat je 4 MB.

Podporované konektory

File Storage

Připojení or/metadata itemName
(soubor nebo složka)
Itemtype
(soubor nebo složka)
size
(soubor)
Vytvořen
(soubor nebo složka)
lastModified1
(soubor nebo složka)
childItems
(složka)
contentMD5
(soubor)
struktura2
(soubor)
columnCount2
(soubor)
existuje3
(soubor nebo složka)
Amazon S3 √/√ √/√ x/x √/√ linka √/√
Úložiště kompatibilní s Amazon S3 √/√ √/√ x/x √/√ linka √/√
Cloudové úložiště Googlu √/√ √/√ x/x √/√ linka √/√
Oracle Cloud Storage √/√ √/√ x/x √/√ linka √/√
Azure Blob Storage √/√ √/√ x/x √/√ √/√
Azure Data Lake Storage Gen1 √/√ √/√ x/x √/√ linka √/√
Azure Data Lake Storage Gen2 √/√ √/√ x/x √/√ √/√
Azure Files √/√ √/√ √/√ √/√ linka √/√
Microsoft Fabric Lakehouse √/√ √/√ x/x √/√ √/√
Systém souborů √/√ √/√ √/√ √/√ linka √/√
SFTP √/√ √/√ x/x √/√ linka √/√
FTP √/√ √/√ x/x x/x linka √/√

1 Metadata lastModified:

  • Pro Amazon S3, Amazon S3 Compatible Storage, Google Cloud Storage a Oracle Cloud Storage platí pro kbelík a klíč, lastModified ale ne pro virtuální složku, a exists platí pro kontejner a klíč, ale ne pro předponu nebo virtuální složku.
  • Pro azure Blob Storage lastModified platí pro kontejner a objekt blob, ale ne pro virtuální složku.

2 Metadata a columnCount nejsou podporována structure při získávání metadat ze souborů Binary, JSON nebo XML.

3 Metadata exists: Pro Amazon S3, Amazon S3 Compatible Storage, Google Cloud Storage a Oracle Cloud Storage platí pro kbelík a klíč, exists ale ne pro předponu nebo virtuální složku.

Je potřeba upozornit na následující:

  • Při použití aktivity Získat metadata u složky se ujistěte, že máte oprávnění LIST/EXECUTE k dané složce.

  • Filtr zástupných znaků u složek nebo souborů není podporován pro aktivitu Získat metadata.

  • modifiedDatetimeStart a modifiedDatetimeEnd filtr nastavený na konektor:

    • Tyto dvě vlastnosti slouží k filtrování podřízených položek při získávání metadat ze složky. Nevztahuje se na získání metadat ze souboru.
    • Při použití childItems takového filtru obsahuje ve výstupu pouze soubory upravené v zadaném rozsahu, ale ne složky.
    • Pokud chcete tento filtr použít, aktivita GetMetadata zobrazí výčet všech souborů v zadané složce a zkontroluje čas změny. Nepoužívejte odkazování na složku s velkým počtem souborů, i když je očekávaný počet kvalifikovaných souborů malý.

Relační databáze

Připojení or/metadata – struktura Columncount existuje
Amazon RDS pro SQL Server
Azure SQL Database
Spravovaná instance Azure SQL
Azure Synapse Analytics
SQL Server

Možnosti metadat

V seznamu polí aktivity Získat metadata můžete zadat následující typy metadat, které načtou odpovídající informace:

Typ metadat Popis
itemName Název souboru nebo složky.
Itemtype Typ souboru nebo složky Vrácená hodnota je File nebo Folder.
size Velikost souboru v bajtech Platí jenom pro soubory.
Vytvořen Vytvořili jste datum a čas souboru nebo složky.
lastModified Datum poslední změny souboru nebo složky.
childItems Seznam podsložek a souborů v dané složce Platí jenom pro složky. Vrácená hodnota je seznam názvu a typu každé podřízené položky.
contentMD5 MD5 souboru. Platí jenom pro soubory.
– struktura Datová struktura tabulky souboru nebo relační databáze Vrácená hodnota je seznam názvů sloupců a typů sloupců.
Columncount Počet sloupců v souboru nebo relační tabulce
existuje Bez ohledu na to, jestli soubor, složka nebo tabulka existuje. Pokud exists je zadaná v seznamu polí Získat metadata, aktivita se nezdaří ani v případě, že soubor, složka nebo tabulka neexistují. exists: false Místo toho se vrátí ve výstupu.

Tip

Pokud chcete ověřit, že soubor, složka nebo tabulka existuje, zadejte exists v seznamu polí aktivity Získat metadata. Výsledek pak můžete zkontrolovat exists: true/false ve výstupu aktivity. Pokud exists není v seznamu polí zadaný, aktivita Získat metadata selže, pokud se objekt nenajde.

Poznámka:

Když získáte metadata z úložišť souborů a nakonfigurujete modifiedDatetimeStart nebo modifiedDatetimeEnd, childItems obsahuje ve výstupu pouze soubory v zadané cestě, které mají čas poslední změny v zadaném rozsahu. Položky v podsložkách nejsou zahrnuty.

Poznámka:

Pokud chcete, aby seznam polí Struktury poskytoval skutečnou datovou strukturu pro datové sady s oddělovači a datovými sadami formátu Aplikace Excel, musíte povolit First Row as Header vlastnost, která je podporována pouze pro tyto zdroje dat.

Syntaxe

Aktivita Získání metadat

{
    "name":"MyActivity",
    "type":"GetMetadata",
    "dependsOn":[

    ],
    "policy":{
        "timeout":"7.00:00:00",
        "retry":0,
        "retryIntervalInSeconds":30,
        "secureOutput":false,
        "secureInput":false
    },
    "userProperties":[

    ],
    "typeProperties":{
        "dataset":{
            "referenceName":"MyDataset",
            "type":"DatasetReference"
        },
        "fieldList":[
            "size",
            "lastModified",
            "structure"
        ],
        "storeSettings":{
            "type":"AzureBlobStorageReadSettings"
        },
        "formatSettings":{
            "type":"JsonReadSettings"
        }
    }
}

Dataset

{
    "name":"MyDataset",
    "properties":{
        "linkedServiceName":{
            "referenceName":"AzureStorageLinkedService",
            "type":"LinkedServiceReference"
        },
        "annotations":[

        ],
        "type":"Json",
        "typeProperties":{
            "location":{
                "type":"AzureBlobStorageLocation",
                "fileName":"file.json",
                "folderPath":"folder",
                "container":"container"
            }
        }
    }
}

Vlastnosti typu

Aktivita Získat metadata může v současné době vracet následující typy informací o metadatech:

Vlastnost Popis Povinní účastníci
fieldList Požadované typy informací o metadatech. Podrobnosti o podporovaných metadatech najdete v části Možnosti metadat tohoto článku. Ano
datová sada Referenční datová sada, jejíž metadata se mají načíst aktivitou Získat metadata. Informace o podporovaných konektorech najdete v části Možnosti. Podrobnosti o syntaxi datové sady najdete v konkrétních tématech konektoru. Ano
formát Nastavení Použít při použití datové sady typů formátu No
store Nastavení Použít při použití datové sady typů formátu No

Ukázkový výstup

Výsledky získání metadat se zobrazují ve výstupu aktivity. Následují dvě ukázky s rozsáhlými možnostmi metadat. Pokud chcete výsledky použít v následné aktivitě, použijte tento vzor: @{activity('MyGetMetadataActivity').output.itemName}.

Získání metadat souboru

{
  "exists": true,
  "itemName": "test.csv",
  "itemType": "File",
  "size": 104857600,
  "lastModified": "2017-02-23T06:17:09Z",
  "created": "2017-02-23T06:17:09Z",
  "contentMD5": "cMauY+Kz5zDm3eWa9VpoyQ==",
  "structure": [
    {
        "name": "id",
        "type": "Int64"
    },
    {
        "name": "name",
        "type": "String"
    }
  ],
  "columnCount": 2
}

Získání metadat složky

{
  "exists": true,
  "itemName": "testFolder",
  "itemType": "Folder",
  "lastModified": "2017-02-23T06:17:09Z",
  "created": "2017-02-23T06:17:09Z",
  "childItems": [
    {
      "name": "test.avro",
      "type": "File"
    },
    {
      "name": "folder hello",
      "type": "Folder"
    }
  ]
}

Další informace o dalších podporovaných aktivitách toku řízení: