Binaire indeling in Azure Data Factory en Synapse Analytics
VAN TOEPASSING OP: Azure Data Factory Azure Synapse Analytics
Tip
Probeer Data Factory uit in Microsoft Fabric, een alles-in-één analyseoplossing voor ondernemingen. Microsoft Fabric omvat alles, van gegevensverplaatsing tot gegevenswetenschap, realtime analyses, business intelligence en rapportage. Meer informatie over het gratis starten van een nieuwe proefversie .
Binaire indeling wordt ondersteund voor de volgende connectors: Amazon S3, Amazon S3 Compatibele opslag, Azure Blob, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Files, File System, FTP, Google Cloud Storage, HDFS, HTTP, Oracle Cloud Storage en SFTP.
U kunt binaire gegevensset gebruiken in Copy-activiteit, GetMetadata-activiteit of Verwijderactiviteit. Wanneer u binaire gegevensset gebruikt, parseert de service geen bestandsinhoud, maar behandelt deze als zodanig.
Notitie
Wanneer u binaire gegevensset gebruikt in kopieeractiviteit, kunt u alleen kopiëren van binaire gegevensset naar binaire gegevensset.
Eigenschappen van gegevensset
Zie het artikel Gegevenssets voor een volledige lijst met secties en eigenschappen die beschikbaar zijn voor het definiëren van gegevenssets . Deze sectie bevat een lijst met eigenschappen die worden ondersteund door de binaire gegevensset.
Eigenschappen | Beschrijving | Vereist |
---|---|---|
type | De typeeigenschap van de gegevensset moet worden ingesteld op Binair. | Ja |
locatie | Locatie-instellingen van de bestanden. Elke op bestanden gebaseerde connector heeft een eigen locatietype en ondersteunde eigenschappen onder location . Zie de details in het connectorartikel -> sectie Eigenschappen van gegevensset. |
Ja |
compressie | Groep eigenschappen voor het configureren van bestandscompressie. Configureer deze sectie wanneer u compressie/decompressie wilt uitvoeren tijdens de uitvoering van de activiteit. | Nee |
type | De compressiecodec die wordt gebruikt voor het lezen/schrijven van binaire bestanden. Toegestane waarden zijn bzip2, gzip, deflate, ZipDeflate, Tar of TarGzip. Opmerking wanneer u kopieeractiviteit gebruikt om ZipDeflate TarGzip/Tar-bestanden te decomprimeren /en schrijven naar een of meer op bestanden gebaseerde sinkgegevensopslag. Standaard worden bestanden uitgepakt in de map: <path specified in dataset>/<folder named as source compressed file>/ , gebruikt/preserveCompressionFileNameAsFolder preserveZipFileNameAsFolder u bij de kopieeractiviteitsbron om te bepalen of u de naam van de gecomprimeerde bestanden als mapstructuur wilt behouden. |
Nee |
niveau | De compressieverhouding. Toepassen wanneer de gegevensset wordt gebruikt in Copy-activiteit sink. Toegestane waarden zijn Optimaal of Snelste. - Snelste: De compressiebewerking moet zo snel mogelijk worden voltooid, zelfs als het resulterende bestand niet optimaal is gecomprimeerd. - Optimaal: De compressiebewerking moet optimaal worden gecomprimeerd, zelfs als het langer duurt om de bewerking te voltooien. Zie het onderwerp Compressieniveau voor meer informatie. |
Nee |
Hieronder ziet u een voorbeeld van een binaire gegevensset in Azure Blob Storage:
{
"name": "BinaryDataset",
"properties": {
"type": "Binary",
"linkedServiceName": {
"referenceName": "<Azure Blob Storage linked service name>",
"type": "LinkedServiceReference"
},
"typeProperties": {
"location": {
"type": "AzureBlobStorageLocation",
"container": "containername",
"folderPath": "folder/subfolder",
},
"compression": {
"type": "ZipDeflate"
}
}
}
}
Eigenschappen van de kopieeractiviteit
Zie het artikel Pijplijnen voor een volledige lijst met secties en eigenschappen die beschikbaar zijn voor het definiëren van activiteiten. Deze sectie bevat een lijst met eigenschappen die worden ondersteund door de binaire bron en sink.
Notitie
Wanneer u binaire gegevensset gebruikt in kopieeractiviteit, kunt u alleen kopiëren van binaire gegevensset naar binaire gegevensset.
Binair als bron
De volgende eigenschappen worden ondersteund in de sectie kopieeractiviteit *source* .
Eigenschappen | Beschrijving | Vereist |
---|---|---|
type | De typeeigenschap van de bron van de kopieeractiviteit moet worden ingesteld op BinarySource. | Ja |
formatSettings | Een groep eigenschappen. Raadpleeg de onderstaande tabel met binaire leesinstellingen. | Nee |
storeSettings | Een groep eigenschappen over het lezen van gegevens uit een gegevensarchief. Elke op bestanden gebaseerde connector heeft zijn eigen ondersteunde leesinstellingen onder storeSettings . Zie de details in het connectorartikel -> sectie Copy-activiteit eigenschappen. |
Nee |
Ondersteunde binaire leesinstellingen onder formatSettings
:
Eigenschappen | Beschrijving | Vereist |
---|---|---|
type | Het type formatSettings moet worden ingesteld op BinaryReadSettings. | Ja |
compressionProperties | Een groep eigenschappen over het decomprimeren van gegevens voor een bepaalde compressiecodec. | Nee |
preserveZipFileNameAsFolder (onder compressionProperties ->type als ZipDeflateReadSettings ) |
Is van toepassing wanneer de invoergegevensset is geconfigureerd met ZipDeflate-compressie . Hiermee wordt aangegeven of de naam van het zip-bronbestand moet worden bewaard als mapstructuur tijdens het kopiëren. - Als deze is ingesteld op true (standaard), schrijft de service uitgepakte bestanden naar <path specified in dataset>/<folder named as source zip file>/ .- Als deze is ingesteld op onwaar, schrijft de service uitgepakte bestanden rechtstreeks naar <path specified in dataset> . Zorg ervoor dat u geen dubbele bestandsnamen in verschillende zip-bronbestanden hebt om racen of onverwacht gedrag te voorkomen. |
Nee |
preserveCompressionFileNameAsFolder (onder compressionProperties ->type als TarGZipReadSettings of TarReadSettings ) |
Is van toepassing wanneer de invoergegevensset is geconfigureerd met Tar-compressie van Tar./ Geeft aan of de gecomprimeerde bronbestandsnaam behouden moet blijven als mapstructuur tijdens het kopiëren. - Als deze is ingesteld op true (standaard), schrijft de service gedecomprimeerde bestanden naar <path specified in dataset>/<folder named as source compressed file>/ . - Als deze is ingesteld op onwaar, schrijft de service gedecomprimeerde bestanden rechtstreeks naar <path specified in dataset> . Zorg ervoor dat u geen dubbele bestandsnamen in verschillende bronbestanden hebt om racen of onverwacht gedrag te voorkomen. |
Nee |
"activities": [
{
"name": "CopyFromBinary",
"type": "Copy",
"typeProperties": {
"source": {
"type": "BinarySource",
"storeSettings": {
"type": "AzureBlobStorageReadSettings",
"recursive": true,
"deleteFilesAfterCompletion": true
},
"formatSettings": {
"type": "BinaryReadSettings",
"compressionProperties": {
"type": "ZipDeflateReadSettings",
"preserveZipFileNameAsFolder": false
}
}
},
...
}
...
}
]
Binair als sink
De volgende eigenschappen worden ondersteund in de sectie kopieeractiviteit *sink* .
Eigenschappen | Beschrijving | Vereist |
---|---|---|
type | De typeeigenschap van de bron van de kopieeractiviteit moet worden ingesteld op BinarySink. | Ja |
storeSettings | Een groep eigenschappen over het schrijven van gegevens naar een gegevensarchief. Elke op bestanden gebaseerde connector heeft zijn eigen ondersteunde schrijfinstellingen onder storeSettings . Zie de details in het connectorartikel -> sectie Copy-activiteit eigenschappen. |
Nee |