Udostępnij za pośrednictwem


Format XML w usłudze Data Factory w usłudze Microsoft Fabric

W tym artykule opisano sposób konfigurowania formatu XML w potoku danych usługi Data Factory w usłudze Microsoft Fabric.

Obsługiwane możliwości

Format XML jest obsługiwany dla następujących działań i łączników jako źródła.

Kategoria Łącznik/działanie
Obsługiwany łącznik Amazon S3
Zgodność z usługą Amazon S3
Azure Blob Storage
Usługa Azure Data Lake Storage 1. generacji
Azure Data Lake Storage Gen2
Azure Files
System plików
FTP
Google Cloud Storage
HTTP
Pliki lakehouse
Oracle Cloud Storage
SFTP
Obsługiwane działanie działanie Kopiuj (źródło/-)
Działanie Lookup
Działanie GetMetadata
Działanie usuwania

Format XML w działaniu kopiowania

Aby skonfigurować format XML, wybierz połączenie w źródle działania kopiowania potoku danych, a następnie wybierz pozycję XML z listy rozwijanej Format pliku. Wybierz pozycję Ustawienia , aby uzyskać dalszą konfigurację tego formatu.

Zrzut ekranu przedstawiający ustawienia formatu pliku.

XML jako źródło

Po wybraniu pozycji Ustawienia w sekcji Format pliku w oknie dialogowym Ustawienia formatu pliku zostaną wyświetlone następujące właściwości.

Zrzut ekranu przedstawiający wybieranie formatu pliku.

  • Typ kompresji: koder-dekoder kompresji używany do odczytywania plików XML. Możesz wybrać typ Brak, bzip2, gzip, deflate, ZipDeflate, TarGZip lub tar na liście rozwijanej.

    Jeśli wybierzesz opcję ZipDeflate jako typ kompresji, zachowaj nazwę pliku zip jako folder jest wyświetlany w obszarze Ustawienia zaawansowane na karcie Źródło .

    • Zachowaj nazwę pliku zip jako folder: wskazuje, czy podczas kopiowania zachować nazwę źródłowego pliku zip jako strukturę folderów.
      • Jeśli to pole jest zaznaczone (ustawienie domyślne), usługa zapisuje rozpakowane pliki na .<specified file path>/<folder named as source zip file>/
      • Jeśli to pole jest niezaznaczone, usługa zapisuje rozpakowane pliki bezpośrednio do <specified file path>. Upewnij się, że nie masz zduplikowanych nazw plików w różnych źródłowych plikach zip, aby uniknąć wyścigów ani nieoczekiwanych zachowań.

    W przypadku wybrania opcji TarGZip/tar jako typu kompresji zachowaj nazwę pliku kompresji jako folder jest wyświetlany w obszarze Ustawienia zaawansowane na karcie Źródło .

    • Zachowaj nazwę pliku kompresji jako folder: wskazuje, czy podczas kopiowania zachować nazwę skompresowanego pliku źródłowego jako strukturę folderów.
      • Jeśli to pole jest zaznaczone (ustawienie domyślne), usługa zapisuje dekompresowane pliki do <specified file path>/<folder named as source compressed file>/.
      • Jeśli to pole jest niezaznaczone, usługa zapisuje dekompresowane pliki bezpośrednio do <specified file path>. Upewnij się, że nie masz zduplikowanych nazw plików w różnych plikach źródłowych, aby uniknąć wyścigów ani nieoczekiwanych zachowań.
  • Poziom kompresji: określ współczynnik kompresji po wybraniu typu kompresji. Możesz wybrać opcję Najszybsze lub Optymalne.

    • Najszybsza: operacja kompresji powinna zostać ukończona tak szybko, jak to możliwe, nawet jeśli wynikowy plik nie jest optymalnie skompresowany.
    • Optymalna: operacja kompresji powinna być optymalnie skompresowana, nawet jeśli operacja trwa dłużej. Aby uzyskać więcej informacji, zobacz Temat Poziom kompresji.
  • Kodowanie: określ typ kodowania używany do pisania plików testowych. Wybierz jeden typ z listy rozwijanej. Wartość domyślna to UTF-8.

  • Wartość null: określa ciąg reprezentujący wartość null. Wartość domyślna to pusty ciąg.

W obszarze Ustawienia zaawansowane na karcie Źródło zostaną wyświetlone następujące właściwości powiązane z formatem XML.

  • Tryb weryfikacji: określa, czy należy zweryfikować schemat XML. Wybierz jeden tryb z listy rozwijanej.

    • Brak: wybierz tę opcję, aby nie używać trybu weryfikacji.
    • xsd: wybierz tę opcję, aby zweryfikować schemat XML przy użyciu XSD.
    • dtd: wybierz tę opcję, aby zweryfikować schemat XML przy użyciu dtD.

    Zrzut ekranu przedstawiający tryby weryfikacji.

  • Przestrzenie nazw: określ, czy włączyć przestrzeń nazw podczas analizowania plików XML. Jest ona domyślnie zaznaczona.

  • Pary prefiksów przestrzeni nazw: jeśli przestrzenie nazw są włączone, wybierz pozycję + Nowy i określ adres URL i prefiks. Możesz dodać więcej par, wybierając pozycję + Nowy.
    Identyfikator URI przestrzeni nazw do mapowania prefiksu służy do nazywania pól podczas analizowania pliku XML. Jeśli plik XML ma przestrzeń nazw, a przestrzeń nazw jest domyślnie włączona, nazwa pola jest taka sama jak w dokumencie XML. Jeśli na tej mapie istnieje element zdefiniowany dla identyfikatora URI przestrzeni nazw, nazwa pola to prefix:fieldName.

    Zrzut ekranu przedstawiający pary prefiksów przestrzeni nazw.

  • Wykrywanie typu danych: określ, czy mają być wykrywane typy danych liczb całkowitych, podwójnych i logicznych. Jest ona domyślnie zaznaczona.

Podsumowanie tabeli

XML jako źródło

Poniższe właściwości są obsługiwane w sekcji Źródło działania kopiowania w przypadku korzystania z formatu XML.

Nazwa Opis Wartość Wymagane Właściwość skryptu JSON
Format pliku Format pliku, którego chcesz użyć. XML Tak type (w obszarze datasetSettings):
XML
Typ kompresji Koder koder kompresji używany do odczytywania plików XML. Brak
bzip2
gzip
Deflate
ZipDeflate
TarGZip
smoła
Nie. type (w obszarze compression):

bzip2
gzip
Deflate
ZipDeflate
TarGZip
smoła
Poziom kompresji  Współczynnik kompresji. Najszybszy
Optymalny 
Nie poziom (w obszarze compression):
Najszybszy
Optymalny
Kodowanie Typ kodowania używany do odczytywania plików testowych. "UTF-8" (domyślnie),"UTF-8 bez BOM", "UTF-16LE", "UTF-16BE", "UTF-32LE", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM865", "IBM869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1255"2", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" Nie encodingName
Zachowaj nazwę pliku zip jako folder Wskazuje, czy podczas kopiowania zachować nazwę źródłowego pliku zip jako strukturę folderów. Wybrane (domyślne) lub usuń zaznaczenie Nie. preserveZipFileNameAsFolder
(w obszarze compressionProperties->type as ZipDeflateReadSettings):
true (wartość domyślna) lub fałsz
Zachowaj nazwę pliku kompresji jako folder Wskazuje, czy podczas kopiowania zachować nazwę skompresowanego pliku źródłowego jako strukturę folderów. Wybrane (domyślne) lub usuń zaznaczenie Nie. preserveCompressionFileNameAsFolder
(w obszarze compressionProperties->type jako TarGZipReadSettings lub TarReadSettings):
true (wartość domyślna) lub fałsz
Wartość null Ciąg reprezentujący wartość null. <wartość null>
pusty ciąg (domyślnie)
Nie nullValue
Tryb weryfikacji Czy należy zweryfikować schemat XML. Brak
xsd
Dtd
Nie. validationMode:

xsd
Dtd
Przestrzenie nazw Czy włączyć przestrzeń nazw podczas analizowania plików XML. Wybrane (domyślne) lub niezaznaczone Nie. przestrzenie nazw:
true (wartość domyślna) lub fałsz
Pary prefiksów przestrzeni nazw Identyfikator URI przestrzeni nazw do mapowania prefiksu, który służy do nazywania pól podczas analizowania pliku XML.
Jeśli plik XML ma przestrzeń nazw, a przestrzeń nazw jest domyślnie włączona, nazwa pola jest taka sama jak w dokumencie XML.
Jeśli na tej mapie istnieje element zdefiniowany dla identyfikatora URI przestrzeni nazw, nazwa pola to prefix:fieldName.
< url >:< prefiks > Nie. namespacePrefixes:
< url >:< prefiks >
Wykrywanie typu danych Czy wykrywać typy danych liczb całkowitych, podwójnych i logicznych. Wybrane (domyślne) lub niezaznaczone Nie. detectDataType:
true (wartość domyślna) lub fałsz