Formát XML ve službě Data Factory v Microsoft Fabric

Tento článek popisuje, jak nakonfigurovat formát XML v datovém kanálu služby Data Factory v Microsoft Fabric.

Podporované funkce

Formát XML je podporovaný pro následující aktivity a konektory jako zdroj.

Kategorie Připojení or/aktivita
Podporovaný konektor Amazon S3
Azure Blob Storage
Azure Data Lake Storage Gen1
Azure Data Lake Storage Gen2
FTP
Cloudové úložiště Googlu
HTTP
SFTP
Podporovaná aktivita aktivita Copy
Aktivita Lookup
Aktivita GetMetadata
Aktivita odstranění

Formát XML v aktivitě kopírování

Pokud chcete nakonfigurovat formát XML, zvolte připojení ve zdroji aktivity kopírování datového kanálu a pak v rozevíracím seznamu formát souboru vyberte XML. Vyberte Nastavení pro další konfiguraci tohoto formátu.

Screenshot showing file format settings.

XML jako zdroj

Po výběru Nastavení v části Formát souboru se v dialogovém okně Nastavení formátu souboru zobrazí následující vlastnosti.

Screenshot showing selecting file format.

  • Typ komprese: Kodek komprese používaný ke čtení souborů XML. V rozevíracím seznamu si můžete vybrat z možností None, bzip2, gzip, deflate, ZipDeflate, TarGZip nebo tar type.

    Pokud jako typ komprese vyberete ZipDeflate , zachovejte název souboru ZIP jako složku v části Upřesnit nastavení na kartě Zdroj .

    • Zachovat název souboru ZIP jako složku: Označuje, zda má být během kopírování zachován název zdrojového souboru ZIP jako struktura složek.
      • Pokud je toto políčko zaškrtnuté (výchozí), služba zapíše rozbalené soubory do <specified file path>/<folder named as source zip file>/.
      • Pokud toto políčko není zaškrtnuté, služba zapíše rozbalené soubory přímo do <specified file path>. Ujistěte se, že v různých zdrojových souborech ZIP nemáte duplicitní názvy souborů, abyste se vyhnuli závodnímu nebo neočekávanému chování.

    Pokud jako typ komprese vyberete TarGZip/tar , zachová se název souboru komprese jako složka v části Upřesnit nastavení na kartě Zdroj .

    • Zachovat název komprimovaného souboru jako složku: Označuje, jestli se má během kopírování zachovat zdrojový komprimovaný název souboru jako struktura složek.
      • Pokud je toto políčko zaškrtnuté (výchozí), služba zapíše dekomprimované soubory do <specified file path>/<folder named as source compressed file>/.
      • Pokud toto políčko není zaškrtnuté, služba zapíše dekomprimované soubory přímo do <specified file path>. Ujistěte se, že v různých zdrojových souborech nemáte duplicitní názvy souborů, abyste se vyhnuli závodnímu nebo neočekávanému chování.
  • Úroveň komprese: Při výběru typu komprese zadejte poměr komprese. Můžete si vybrat z nejrychlejšího nebo optimálního.

    • Nejrychlejší: Operace komprese by se měla co nejrychleji dokončit, i když výsledný soubor není optimálně komprimovaný.
    • Optimální: Operace komprese by měla být optimálně komprimována, i když dokončení operace trvá delší dobu. Další informace naleznete v tématu Úroveň komprese.
  • Kódování: Zadejte typ kódování použitý k zápisu testovacích souborů. V rozevíracím seznamu vyberte jeden typ. Výchozí hodnota je UTF-8.

  • Hodnota Null: Určuje řetězcovou reprezentaci hodnoty null. Výchozí hodnota je prázdný řetězec.

V části Upřesnit nastavení na kartě Zdroj se zobrazí následující vlastnosti související s formátem XML.

  • Režim ověřování: Určuje, zda se má ověřit schéma XML. V rozevíracím seznamu vyberte jeden režim.

    • Žádné: Tuto možnost vyberte, pokud nechcete používat režim ověřování.
    • xsd: Tuto možnost vyberte, pokud chcete ověřit schéma XML pomocí XSD.
    • dtd: Tuto možnost vyberte, pokud chcete ověřit schéma XML pomocí DTD.

    Screenshot showing validation modes.

  • Obory názvů: Určete, zda se má povolit obor názvů při analýze souborů XML. Ve výchozím nastavení je vybraná.

  • Dvojice předpon oboru názvů: Pokud jsou povoleny obory názvů, vyberte + Nový a zadejte adresu URL a předponu. Další páry můžete přidat výběrem + Nový.
    Při analýze souboru XML se k pojmenování polí používá identifikátor URI oboru názvů k mapování předpon. Pokud má soubor XML obor názvů a obor názvů je ve výchozím nastavení povolený, název pole je stejný jako v dokumentu XML. Pokud je v této mapě definována položka pro identifikátor URI oboru názvů, název pole je prefix:fieldName.

    Screenshot showing namespace prefix pairs.

  • Zjistit datový typ: Určete, jestli se mají zjišťovat celočíselná, dvojitá a logická data. Ve výchozím nastavení je vybraná.

Souhrn tabulky

XML jako zdroj

Následující vlastnosti jsou podporovány v části Zdroj aktivity kopírování při použití formátu XML.

Jméno Popis Hodnota Požadované Vlastnost skriptu JSON
Formát souboru Formát souboru, který chcete použít. XML Ano typ (v části datasetSettings):
XML
Typ komprese Komprimační kodek používaný ke čtení souborů XML. Nic
bzip2
Gzip
Deflaci
ZipDeflate
TarGZip
Tar
No typ (v části compression):

bzip2
gzip
Deflaci
ZipDeflate
TarGZip
Tar
Úroveň komprese  Poměr komprese. Nejrychlejší
Optimální 
Ne úroveň (v části compression):
Nejrychlejší
Optimální
Kódování Typ kódování používaný ke čtení testovacích souborů. "UTF-8" (ve výchozím nastavení),"UTF-8 bez BOM", "UTF-16LE", "UTF-16BE", "UTF-32LE", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM865", "IBM865", "IBM869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1255", "WINDOWS-1252", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" Ne encodingName
Zachovat název souboru ZIP jako složku Určuje, zda se má během kopírování zachovat název zdrojového souboru ZIP jako struktura složek. Vybraná (výchozí) nebo zrušit výběr No preserveZipFileNameAsFolder
(pod compressionProperties->type jako ZipDeflateReadSettings):
true (výchozí) nebo false
Zachování názvu komprimačního souboru jako složky Určuje, zda se má během kopírování zachovat zdrojový komprimovaný název souboru jako struktura složek. Vybraná (výchozí) nebo zrušit výběr No preserveCompressionFileNameAsFolder
(pod ->compressionPropertiestype jako TarGZipReadSettings nebo TarReadSettings):
true (výchozí) nebo false
Hodnota Null Řetězcová reprezentace hodnoty null. <vaše hodnota null>
prázdný řetězec (ve výchozím nastavení)
Ne nullValue
Režim ověřování Zda se má ověřit schéma XML. Nic
Xsd
Dtd
No validationMode:

Xsd
Dtd
Obory názvů Zda se má povolit obor názvů při analýze souborů XML. Vybraná (výchozí) nebo nevybraná No Obory názvů:
true (výchozí) nebo false
Páry předpon oboru názvů Identifikátor URI oboru názvů pro mapování předpon, který se používá k pojmenování polí při analýze souboru XML.
Pokud má soubor XML obor názvů a obor názvů je ve výchozím nastavení povolený, název pole je stejný jako v dokumentu XML.
Pokud je v této mapě definována položka pro identifikátor URI oboru názvů, název pole je prefix:fieldName.
< url >:< předpona > No namespacePrefixes:
< url >:< předpona >
Zjištění datového typu Určuje, jestli se mají zjišťovat celočíselné, dvojité a logické datové typy. Vybraná (výchozí) nebo nevybraná No detectDataType:
true (výchozí) nebo false