Formát Avro ve službě Azure Data Factory a Synapse Analytics

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

Pokud chcete analyzovat soubory Avro nebo zapisovat data do formátu Avro, postupujte podle tohoto článku.

Formát Avro je podporovaný pro následující konektory: Amazon S3, Amazon S3 Compatible Storage, Azure Blob, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Files, File System, FTP, Google Cloud Storage, HDFS, HTTP, Oracle Cloud Storage a SFTP.

Vlastnosti datové sady

Úplný seznam oddílů a vlastností dostupných pro definování datových sad najdete v článku Datové sady . Tato část obsahuje seznam vlastností podporovaných datovou sadou Avro.

Vlastnost Popis Povinní účastníci
type Vlastnost typu datové sady musí být nastavená na Avro. Ano
location Nastavení umístění souborů Každý konektor založený na souborech má svůj vlastní typ umístění a podporované vlastnosti v části location. Podrobnosti najdete v článku o konektoru –> část Vlastnosti datové sady. Ano
avroCompressionCodec Kodek komprese, který se má použít při zápisu do souborů Avro. Při čtení ze souborů Avro služba automaticky určí kodek komprese na základě metadat souboru.
Podporované typy jsou none (výchozí), deflate, snappy. Všimněte si, že v současné době aktivita Copy nepodporuje Snappy při čtení a zápisu souborů Avro.
No

Poznámka:

U souborů Avro není podporováno prázdné znaky v názvu sloupce.

Níže je příklad datové sady Avro ve službě Azure Blob Storage:

{
    "name": "AvroDataset",
    "properties": {
        "type": "Avro",
        "linkedServiceName": {
            "referenceName": "<Azure Blob Storage linked service name>",
            "type": "LinkedServiceReference"
        },
        "schema": [ < physical schema, optional, retrievable during authoring > ],
        "typeProperties": {
            "location": {
                "type": "AzureBlobStorageLocation",
                "container": "containername",
                "folderPath": "folder/subfolder",
            },
            "avroCompressionCodec": "snappy"
        }
    }
}

Vlastnosti aktivity kopírování

Úplný seznam oddílů a vlastností dostupných pro definování aktivit najdete v článku Pipelines . Tato část obsahuje seznam vlastností podporovaných zdrojem a jímkou Avro.

Avro jako zdroj

Následující vlastnosti jsou podporovány v části aktivity kopírování *source* .

Vlastnost Popis Povinní účastníci
type Vlastnost typu zdroje aktivity kopírování musí být nastavena na AvroSource. Ano
store Nastavení Skupina vlastností, jak číst data z úložiště dat. Každý konektor založený na souborech má vlastní podporovaná nastavení čtení v části storeSettings. Podrobnosti najdete v článku o konektoru –> aktivita Copy části vlastností. No

Avro jako jímka

Následující vlastnosti jsou podporovány v části aktivity kopírování *jímka*.

Vlastnost Popis Povinní účastníci
type Vlastnost typu zdroje aktivity kopírování musí být nastavena na AvroSink. Ano
formát Nastavení Skupina vlastností. Níže najdete tabulku nastavení zápisu Avro. No
store Nastavení Skupina vlastností pro zápis dat do úložiště dat. Každý konektor založený na souborech má vlastní podporovaná nastavení zápisu v části storeSettings. Podrobnosti najdete v článku o konektoru –> aktivita Copy části vlastností. No

Podporované nastavení zápisu Avro v části formatSettings:

Vlastnost Popis Povinní účastníci
type Typ formátu Nastavení musí být nastaven na AvroWrite Nastavení. Ano
maxRowsPerFile Při zápisu dat do složky se můžete rozhodnout zapisovat do více souborů a zadat maximální počet řádků na soubor. No
fileNamePrefix Platí, pokud maxRowsPerFile je nakonfigurováno.
Při zápisu dat do více souborů zadejte předponu názvu souboru, výsledkem je tento vzor: <fileNamePrefix>_00000.<fileExtension>. Pokud není zadána, automaticky se vygeneruje předpona názvu souboru. Tato vlastnost se nevztahuje, pokud zdroj je úložiště dat založené na souborech nebo úložiště dat s povolenou možností oddílu.
No

Mapování vlastností toku dat

Při mapování toků dat můžete číst a zapisovat do formátu avro v následujících úložištích dat: Azure Blob Storage, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2 a SFTP a můžete číst formát avro v AmazonU S3.

Vlastnosti zdroje

Následující tabulka uvádí vlastnosti podporované zdrojem avro. Tyto vlastnosti můžete upravit na kartě Možnosti zdroje.

Název Popis Povinní účastníci Povolené hodnoty Vlastnost skriptu toku dat
Cesty se zástupnými kartami Zpracují se všechny soubory odpovídající cestě se zástupným znakem. Přepíše složku a cestu k souboru nastavenou v datové sadě. ne Řetězec[] Zástupné cardPaths
Kořenová cesta oddílu Pro data souborů rozdělená do oddílů můžete zadat kořenovou cestu oddílu, abyste mohli číst dělené složky jako sloupce. ne String partitionRootPath
Seznam souborů Určuje, jestli váš zdroj ukazuje na textový soubor se seznamem souborů, které se mají zpracovat. ne true nebo false Filelist
Sloupec pro uložení názvu souboru Vytvoření nového sloupce s názvem zdrojového souboru a cestou ne String rowUrlColumn
Po dokončení Soubory po zpracování odstraňte nebo přesuňte. Cesta k souboru začíná z kořenového adresáře kontejneru. ne Odstranit: true nebo false
Přesunout: ['<from>', '<to>']
purgeFiles
moveFiles
Filtrovat podle poslední změny Zvolte filtrování souborů na základě toho, kdy byly naposledy změněny. ne Časové razítko Modifiedafter
Modifiedbefore
Povolit žádné nalezené soubory Pokud je pravda, chyba se nevyvolá, pokud se nenašly žádné soubory. ne true nebo false ignoreNoFilesFound

Vlastnosti jímky

Následující tabulka uvádí vlastnosti podporované jímkou avro. Tyto vlastnosti můžete upravit na kartě Nastavení.

Název Popis Povinní účastníci Povolené hodnoty Vlastnost skriptu toku dat
Vymazání složky Pokud je cílová složka před zápisem vymazána. ne true nebo false truncate
Možnost názvu souboru Formát pojmenování zapsaných dat. Ve výchozím nastavení je ve formátu jeden soubor na oddíl. part-#####-tid-<guid> ne Vzor: Řetězec
Na oddíl: String[]
Jako data ve sloupci: Řetězec
Výstup do jednoho souboru: ['<fileName>']
filePattern
partitionFileNames
rowUrlColumn
partitionFileNames
Citace vše Uzavření všech hodnot do uvozovek ne true nebo false QuoteAll

Podpora datových typů

Aktivita kopírování

Komplexní datové typy Avro nejsou podporovány (záznamy, výčty, pole, mapy, sjednocení a pevné) v aktivitě kopírování.

Toky dat

Při práci se soubory Avro v tocích dat můžete číst a zapisovat složité datové typy, ale nezapomeňte nejprve vymazat fyzické schéma z datové sady. V tocích dat můžete nastavit logickou projekci a odvodit sloupce, které jsou komplexními strukturami, a pak tato pole automaticky mapovat na soubor Avro.