XML-indeling in Data Factory in Microsoft Fabric
In dit artikel wordt beschreven hoe u een XML-indeling configureert in de gegevenspijplijn van Data Factory in Microsoft Fabric.
XML-indeling wordt ondersteund voor de volgende activiteiten en connectors als bron.
Categorie | Connector/activiteit |
---|---|
Ondersteunde connector | Amazon S3 |
Amazon S3 compatibel | |
Azure Blob Storage | |
Azure Data Lake Storage Gen1 | |
Azure Data Lake Storage Gen2 | |
Azure Files | |
Bestandssysteem | |
FTP | |
Google Cloud Storage | |
HTTP | |
Lakehouse Files | |
Oracle Cloud Storage | |
SFTP | |
Ondersteunde activiteit | Copy-activiteit (bron/-) |
Activiteit Lookup | |
GetMetadata-activiteit | |
Activiteit verwijderen |
Als u de XML-indeling wilt configureren, kiest u de verbinding in de bron van de kopieeractiviteit van de gegevenspijplijn en selecteert u VERVOLGENS XML in de vervolgkeuzelijst met de bestandsindeling. Selecteer Instellingen voor verdere configuratie van deze indeling.
Nadat u Instellingen in de sectie Bestandsindeling hebt geselecteerd, worden de volgende eigenschappen weergegeven in het dialoogvenster Instellingen voor bestandsindeling.
Compressietype: de compressiecodec die wordt gebruikt om XML-bestanden te lezen. U kunt kiezen uit None, bzip2, gzip, deflate, ZipDeflate, TarGZip of tar-type in de vervolgkeuzelijst.
Als u ZipDeflate selecteert als het compressietype, wordt de naam van het zip-bestand behouden als map weergegeven onder de geavanceerde instellingen op het tabblad Bron.
- Naam van zip-bestand behouden als map: Geeft aan of de naam van het zip-bronbestand moet worden bewaard als een mapstructuur tijdens het kopiëren.
- Als dit selectievakje is ingeschakeld (standaard), schrijft de service uitgepakte bestanden naar
<specified file path>/<folder named as source zip file>/
. - Als dit selectievakje is uitgeschakeld, schrijft de service uitgepakte bestanden rechtstreeks naar
<specified file path>
. Zorg ervoor dat u geen dubbele bestandsnamen in verschillende zip-bronbestanden hebt om racen of onverwacht gedrag te voorkomen.
- Als dit selectievakje is ingeschakeld (standaard), schrijft de service uitgepakte bestanden naar
Als u TarGZip/tar als het compressietype selecteert, wordt de bestandsnaam van de compressie behouden als map weergegeven onder de geavanceerde instellingen op het tabblad Bron.
- Compressiebestandsnaam behouden als map: Geeft aan of de gecomprimeerde bronbestandsnaam behouden moet blijven als mapstructuur tijdens het kopiëren.
- Als dit selectievakje is ingeschakeld (standaard), schrijft de service gedecomprimeerde bestanden naar
<specified file path>/<folder named as source compressed file>/
. - Als dit selectievakje is uitgeschakeld, schrijft de service gedecomprimeerde bestanden rechtstreeks naar
<specified file path>
. Zorg ervoor dat u geen dubbele bestandsnamen in verschillende bronbestanden hebt om racen of onverwacht gedrag te voorkomen.
- Als dit selectievakje is ingeschakeld (standaard), schrijft de service gedecomprimeerde bestanden naar
- Naam van zip-bestand behouden als map: Geeft aan of de naam van het zip-bronbestand moet worden bewaard als een mapstructuur tijdens het kopiëren.
Compressieniveau: Geef de compressieverhouding op wanneer u een compressietype selecteert. U kunt kiezen uit Snelste of Optimaal.
- Snelste: De compressiebewerking moet zo snel mogelijk worden voltooid, zelfs als het resulterende bestand niet optimaal is gecomprimeerd.
- Optimaal: De compressiebewerking moet optimaal worden gecomprimeerd, zelfs als het langer duurt om de bewerking te voltooien. Zie het onderwerp Compressieniveau voor meer informatie.
Codering: geef het coderingstype op dat wordt gebruikt om testbestanden te schrijven. Selecteer één type in de vervolgkeuzelijst. De standaardwaarde is UTF-8.
Null-waarde: hiermee geeft u de tekenreeksweergave van null-waarde op. De standaardwaarde is een lege tekenreeks.
Onder Geavanceerde instellingen op het tabblad Bron worden de volgende eigenschappen van de XML-indeling weergegeven.
Validatiemodus: Hiermee geeft u op of het XML-schema moet worden gevalideerd. Selecteer één modus in de vervolgkeuzelijst.
- Geen: selecteer deze optie om de validatiemodus niet te gebruiken.
- xsd: Selecteer dit om het XML-schema te valideren met behulp van XSD.
- dtd: Selecteer dit om het XML-schema te valideren met DTD.
Naamruimten: geef op of u naamruimte wilt inschakelen bij het parseren van de XML-bestanden. Deze is standaard geselecteerd.
Naamruimtevoorvoegselparen: als de naamruimten zijn ingeschakeld, selecteert u + Nieuw en geeft u de URL en het voorvoegsel op. U kunt meer paren toevoegen door + Nieuw te selecteren.
Naamruimte-URI voor voorvoegseltoewijzing wordt gebruikt om velden een naam te geven bij het parseren van het XML-bestand. Als een XML-bestand naamruimte en naamruimte heeft ingeschakeld, is de veldnaam standaard hetzelfde als in het XML-document. Als er een item is gedefinieerd voor de naamruimte-URI in deze kaart, isprefix:fieldName
de veldnaam.Gegevenstype detecteren: geef op of u gehele getallen, dubbele en Booleaanse gegevenstypen wilt detecteren. Deze is standaard geselecteerd.
De volgende eigenschappen worden ondersteund in de sectie Bron van kopieeractiviteit wanneer u XML-indeling gebruikt.
Naam | Beschrijving | Weergegeven als | Vereist | JSON-scripteigenschap |
---|---|---|---|---|
Bestandsindeling | De bestandsindeling die u wilt gebruiken. | XML | Ja | type (onder datasetSettings ):Xml |
Compressietype | De compressiecodec die wordt gebruikt om XML-bestanden te lezen. | Geen bzip2 gzip Deflate ZipDeflate TarGZip teer |
Nee | type (onder compression ): bzip2 gzip Deflate ZipDeflate TarGZip teer |
Compressieniveau | De compressieverhouding. | Snelst Optimaal |
Nee | niveau (onder compression ): Snelst Optimaal |
Codering | Het coderingstype dat wordt gebruikt om testbestanden te lezen. | "UTF-8" (standaard),"UTF-8 zonder BOM", "UTF-16LE", "UTF-16BE", "UTF-32LE", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM865", "IBM869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1255"2", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" | Nee | encodingName |
Zip-bestandsnaam behouden als map | Geeft aan of de naam van het zip-bronbestand moet worden bewaard als een mapstructuur tijdens het kopiëren. | Geselecteerd (standaard) of selectie opheffen | Nee | preserveZipFileNameAsFolder (onder compressionProperties ->type als ZipDeflateReadSettings ):waar (standaard) of onwaar |
Compressiebestandsnaam behouden als map | Hiermee wordt aangegeven of de gecomprimeerde bronbestandsnaam tijdens het kopiëren moet worden bewaard als een mapstructuur. | Geselecteerd (standaard) of selectie opheffen | Nee | preserveCompressionFileNameAsFolder (onder compressionProperties ->type als TarGZipReadSettings of TarReadSettings ):waar (standaard) of onwaar |
Null-waarde | De tekenreeksweergave van null-waarde. | <uw null-waarde> lege tekenreeks (standaard) |
Nee | nullValue |
Validatiemodus | Of het XML-schema moet worden gevalideerd. | Geen xsd Dtd |
Nee | validationMode: xsd Dtd |
Naamruimten | Of u naamruimte wilt inschakelen bij het parseren van de XML-bestanden. | Geselecteerd (standaard) of niet geselecteerd | Nee | naamruimten: waar (standaard) of onwaar |
Naamruimtevoorvoegselparen | Naamruimte-URI voor toewijzing van voorvoegsels, die wordt gebruikt om velden een naam te geven bij het parseren van het XML-bestand. Als een XML-bestand naamruimte en naamruimte heeft ingeschakeld, is de veldnaam standaard hetzelfde als in het XML-document. Als er een item is gedefinieerd voor de naamruimte-URI in deze kaart, is prefix:fieldName de veldnaam. |
< url >:< voorvoegsel > | Nee | namespacePrefixes: < url >:< voorvoegsel > |
Gegevenstype detecteren | Of u gehele getallen, dubbele gegevenstypen en Booleaanse gegevenstypen wilt detecteren. | Geselecteerd (standaard) of niet geselecteerd | Nee | detectDataType: waar (standaard) of onwaar |