Megosztás a következőn keresztül:


Tagolt szövegformátum a Data Factoryben a Microsoft Fabricben

Ez a cikk bemutatja, hogyan konfigurálhat tagolt szövegformátumot a Data Factory adatfolyamatában a Microsoft Fabricben.

Támogatott képességek

A tagolt szövegformátum a következő tevékenységek és összekötők esetében támogatott forrásként és célként.

Kategória Összekötő/tevékenység
Támogatott összekötő Amazon S3
Amazon S3 kompatibilis
Azure Blob Storage
1. generációs Azure Data Lake Storage
Azure Data Lake Storage Gen2
Azure Files
Fájlrendszer
FTP
Google Cloud Storage
HTTP
Lakehouse Files
Oracle Cloud Storage
SFTP
Támogatott tevékenység Copy tevékenység (forrás/cél)
Keresési tevékenység
GetMetadata-tevékenység
Tevékenység törlése

Tagolt szövegformátum másolási tevékenységben

Ha tagolt szövegformátumot szeretne konfigurálni, válassza ki a kapcsolatot az adatfolyam-másolási tevékenység forrásában vagy célhelyén, majd válassza a DelimitedText lehetőséget a Fájlformátum legördülő listájában. A formátum további konfigurálásához válassza a Beállítások lehetőséget .

Képernyőkép a fájlformátum beállításairól.

Tagolt szövegformátum forrásként

Miután kiválasztotta a Beállítások lehetőséget a Fájlformátum szakaszban, a következő tulajdonságok jelennek meg az előugró Fájlformátum beállításai párbeszédpanelen.

Képernyőkép a forrásfájl formátumbeállításairól.

  • Tömörítés típusa: A tagolt szövegfájlok olvasásához használt tömörítési kodek. A legördülő listában választhat a Nincs, a bzip2, a gzip, a deflát, a ZipDeflate, a TarGzip vagy a tar típus közül.

    Ha tömörítési típusként a ZipDeflate lehetőséget választja, a Zip-fájlnév megőrzése mappaként a Forrás lap Speciális beállításai alatt jelenik meg.

    • Zip-fájlnév megőrzése mappaként: Azt jelzi, hogy a másolás során meg kell-e őrizni a forrás zip-fájl nevét mappaszerkezetként.
      • Ha ez a jelölőnégyzet be van jelölve (alapértelmezett), a szolgáltatás kibontott fájlokat ír a fájlba <specified file path>/<folder named as source zip file>/.
      • Ha ez a jelölőnégyzet nincs bejelölve, a szolgáltatás a kibontott fájlokat közvetlenül a fájlba <specified file path>írja. Győződjön meg arról, hogy nincsenek ismétlődő fájlnevek a különböző forrás zip-fájlokban, hogy elkerülje a versenyzést vagy a váratlan viselkedést.

    Ha tömörítési típusként a TarGzip/tar lehetőséget választja, a tömörítési fájl nevének megőrzése mappaként a Forrás lap Speciális beállításai alatt jelenik meg.

    • A tömörítési fájl nevének megőrzése mappaként: Azt jelzi, hogy a másolás során meg kell-e őrizni a forrásként tömörített fájlnevet mappastruktúraként.
      • Ha ez a jelölőnégyzet be van jelölve (alapértelmezett), a szolgáltatás tömörített fájlokat ír a fájlba <specified file path>/<folder named as source compressed file>/.
      • Ha ez a jelölőnégyzet nincs bejelölve, a szolgáltatás közvetlenül <specified file path>ide írja a tömörített fájlokat. Győződjön meg arról, hogy nincsenek ismétlődő fájlnevek a különböző forrás zip-fájlokban, hogy elkerülje a versenyzést vagy a váratlan viselkedést.
  • Tömörítési szint: A tömörítési típus kiválasztásakor adja meg a tömörítési arányt. Választhat az Optimális vagy a Leggyorsabb lehetőség közül.

    • Leggyorsabb: A tömörítési műveletnek a lehető leggyorsabban végre kell hajtania, még akkor is, ha az eredményül kapott fájl nincs optimálisan tömörítve.
    • Optimális: A tömörítési műveletet optimálisan kell tömöríteni, még akkor is, ha a művelet végrehajtása hosszabb időt vesz igénybe. További információ: Tömörítési szint témakör.
  • Oszlophatároló: A fájl oszlopainak elválasztásához használt karakter(ek). Az alapértelmezett érték a vessző (,).

  • Sorelválasztó: Adja meg a fájl sorainak elválasztásához használt karaktert. Csak egy karakter használata engedélyezett. Az alapértelmezett érték a sorcsatorna \n.

  • Kódolás: A tesztfájlok olvasásához/írásához használt kódolási típus. Az alapértelmezett érték az UTF-8.

  • Escape karakter: Az egyetlen karakter, amely az idézőjeleket idézi egy idézeten belül. Az alapértelmezett érték a fordított perjel\. Ha a feloldó karakter üres sztringként van definiálva, az Idézőjelet is üres sztringként kell beállítani, ebben az esetben győződjön meg arról, hogy az összes oszlopérték nem tartalmaz elválasztójeleket.

  • Idézőjel: Az oszlopértékeket idéző egyetlen karakter, ha oszlopelválasztót tartalmaz. Az alapértelmezett érték a dupla idézőjel. " Ha az Idézőjel üres sztringként van definiálva, az azt jelenti, hogy nincs idézőjel, és az oszlop értéke nem idézőjel, és a feloldó karakter az oszlopelválasztó és magát az oszlophatárolást is feloldja.

  • Első sor fejlécként: Megadja, hogy az első sort fejlécsorként kell-e kezelni/létrehozni oszlopnevekkel. Az engedélyezett értékek ki vannak jelölve, és nem jelölhetők ki (alapértelmezett). Ha az első sor fejlécként nincs kijelölve, vegye figyelembe, hogy a felhasználói felület adatainak előnézete és a keresési tevékenység kimenete automatikusan létrehozza az oszlopneveket Prop_{n} néven (0-tól kezdve), a másolási tevékenységhez explicit leképezésre van szükség a forrástól a célig, és az oszlopokat sorszám szerint kell megkeresni (1-től kezdve).

  • Null érték: A null érték sztring-ábrázolását adja meg. Az alapértelmezett érték üres sztring.

A Forrás lap Speciális beállításai területén a szövegformátumhoz kapcsolódó egyéb tulajdonságok is elérhetők.

Elhatárolt szövegformátum célként

Miután kiválasztotta a Beállítások lehetőséget a Fájlformátum szakaszban, a következő tulajdonságok jelennek meg az előugró Fájlformátum beállításai párbeszédpanelen.

Képernyőkép a célfájlformátum beállításairól.

  • Tömörítés típusa: A tagolt szövegfájlok írásához használt tömörítési kodek. A legördülő listában választhat a Nincs, a bzip2, a gzip, a deflát, a ZipDeflate, a TarGzip vagy a tar típus közül.

  • Tömörítési szint: A tömörítési típus kiválasztásakor adja meg a tömörítési arányt. Választhat az Optimális vagy a Leggyorsabb lehetőség közül.

    • Leggyorsabb: A tömörítési műveletnek a lehető leggyorsabban végre kell hajtania, még akkor is, ha az eredményül kapott fájl nincs optimálisan tömörítve.
    • Optimális: A tömörítési műveletet optimálisan kell tömöríteni, még akkor is, ha a művelet végrehajtása hosszabb időt vesz igénybe. További információ: Tömörítési szint témakör.
  • Oszlophatároló: A fájl oszlopainak elválasztásához használt karakter(ek). Az alapértelmezett érték a vessző (,).

  • Sorelválasztó: A fájl sorainak elválasztásához használt karakter. Csak egy karakter használata engedélyezett. Az alapértelmezett érték a sorcsatorna \n.

  • Kódolás: A tesztfájlok írásához használt kódolási típus. Az alapértelmezett érték az UTF-8.

  • Escape karakter: Az egyetlen karakter, amely az idézőjeleket idézi egy idézeten belül. Az alapértelmezett érték a fordított perjel\. Ha a feloldó karakter üres sztringként van definiálva, az Idézőjelet is üres sztringként kell beállítani, ebben az esetben győződjön meg arról, hogy az összes oszlopérték nem tartalmaz elválasztójeleket.

  • Idézőjel: Az oszlopértékeket idéző egyetlen karakter, ha oszlopelválasztót tartalmaz. Az alapértelmezett érték a dupla idézőjel. " Ha az Idézőjel üres sztringként van definiálva, az azt jelenti, hogy nincs idézőjel, és az oszlop értéke nem idézőjel, és a feloldó karakter az oszlopelválasztó és magát az oszlophatárolást is feloldja.

  • Első sor fejlécként: Megadja, hogy az első sort fejlécsorként kell-e kezelni/létrehozni oszlopnevekkel. Az engedélyezett értékek ki vannak jelölve, és nem jelölhetők ki (alapértelmezett). Ha az első sor fejlécként nincs kijelölve, vegye figyelembe, hogy a felhasználói felület adatainak előnézete és a keresési tevékenység kimenete automatikusan létrehozza az oszlopneveket Prop_{n} néven (0-tól kezdve), a másolási tevékenységhez explicit leképezésre van szükség a forrástól a célig, és az oszlopokat sorszám szerint kell megkeresni (1-től kezdve).

  • Null érték: A null érték sztring-ábrázolását adja meg. Az alapértelmezett érték üres sztring.

A Cél lapon a Speciális beállítások területen további tagolt szövegformátummal kapcsolatos tulajdonság jelenik meg.

  • Idézőjel az összes szövegben: Az összes értéket idézőjelekbe foglalja.

  • Fájlkiterjesztés: A kimeneti fájlok elnevezésére használt fájlkiterjesztés, például: .csv, .txt.

  • Fájlonkénti sorok maximális száma: Ha adatokat ír egy mappába, több fájlba is írhat, és megadhatja a fájlonkénti maximális sorokat.

  • Fájlnév előtagja: Akkor alkalmazható, ha a fájlonkénti sorok maximális száma konfigurálva van. Adja meg a fájlnév előtagot, amikor több fájlba ír adatokat, és a következő mintát eredményezte: <fileNamePrefix>_00000.<fileExtension>. Ha nincs megadva, a rendszer automatikusan létrehozza a fájlnév előtagot. Ez a tulajdonság nem érvényes, ha a forrás fájlalapú tároló vagy partícióbeállítás-kompatibilis adattár.

Táblázat összefoglalása

Elhatárolt szöveg forrásként

A másolási tevékenység Forrás szakaszában a következő tulajdonságok támogatottak, ha tagolt szövegformátumot használ.

Név Leírás Érték Szükséges JSON-szkripttulajdonság
 Fájlformátum A használni kívánt fájlformátum. Tagolt szöveg Igen típus (alatt datasetSettings):
Tagolt szöveg
Tömörítés típusa A tagolt szövegfájlok olvasásához használt tömörítési kodek. Válasszon a következők közül:
Egyik sem
bzip2
gzip
csökkent
ZipDeflate
TarGzip
kátrány
Nem típus (alatt compression):

bzip2
gzip
csökkent
ZipDeflate
TarGzip
kátrány
Zip-fájlnév megőrzése mappaként Azt jelzi, hogy a másolás során meg kell-e őrizni a forrás zip-fájl nevét mappastruktúraként. A ZipDeflate tömörítés kiválasztásakor érvényes. Kijelölve vagy megszüntetve a kijelölést Nem preserveZipFileNameAsFolder
(under compressionProperties->type as ZipDeflateReadSettings)
Tömörítési fájlnév megőrzése mappaként Azt jelzi, hogy a másolás során megőrzi-e a forrás tömörített fájlnevét mappastruktúraként. A TarGzip/tar tömörítés kiválasztásakor érvényes. Kijelölve vagy megszüntetve a kijelölést Nem preserveCompressionFileNameAsFolder
(alatt compressionProperties->type mint TarGZipReadSettings vagy TarReadSettings)
Tömörítési szint  A tömörítési arány. Az engedélyezett értékek optimálisak vagy leggyorsabbak. Optimális vagy leggyorsabb Nem szint (alatt compression):
Leggyorsabb
Optimális
Oszlopelválasztó  A fájl oszlopainak elválasztásához használt karakter(ek).  < a kijelölt oszlopelválasztó >
vessző , (alapértelmezés szerint)
Nem columnDelimiter
Sorelválasztó A fájlokban a sorok elválasztására használt karakter. < a kijelölt sorelválasztó >
\r,\n (alapértelmezés szerint) vagy r\n
Nem rowDelimiter
Kódolás A tesztfájlok olvasásához/írásához használt kódolási típus. "UTF-8" (alapértelmezés szerint),"UTF-8 BOM nélkül", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM8870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1252" 1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" Nem encodingName
Escape karakter Az idézőjelek egy adott értéken belüli feloldásához használható karakter. Ha a feloldó karakter üres sztringként van definiálva, az Idézőjelet is üres sztringként kell beállítani, ebben az esetben győződjön meg arról, hogy az összes oszlopérték nem tartalmaz elválasztójeleket. < a kijelölt escape karakter >
fordított perjel \ (alapértelmezés szerint)
Nem escapeChar
Idézőjel Az oszlopértékeket idéző egyetlen karakter, ha oszlopelválasztót tartalmaz. Ha az Idézőjel üres sztringként van definiálva, az azt jelenti, hogy nincs idézőjel, és az oszlop értéke nem idézőjel, és a feloldó karakter az oszlopelválasztó és magát az oszlophatárolást is feloldja. < a kijelölt idézet karaktere >
dupla idézőjelek " (alapértelmezés szerint)
Nem quoteChar
Első sor fejlécként Megadja, hogy az adott munkalap/tartomány első sorát oszlopnevekkel rendelkező fejlécsorként kell-e kezelni. Kijelölve vagy kijelölve Nem firstRowAsHeader:
igaz vagy hamis (alapértelmezett)
Null érték A null érték sztring-ábrázolását adja meg. Az alapértelmezett érték üres sztring. < a null érték sztring-ábrázolása >
üres sztring (alapértelmezés szerint)
Nem nullValue

Elhatárolt szöveg célként

A másolási tevékenység Cél szakasza a következő tulajdonságokat támogatja, ha tagolt szövegformátumot használ.

Név Leírás Érték Szükséges JSON-szkripttulajdonság
 Fájlformátum A használni kívánt fájlformátum. Tagolt szöveg Igen típus (alatt datasetSettings):
Tagolt szöveg
Tömörítés típusa A tagolt szövegfájlok írásához használt tömörítési kodek. Válasszon a következők közül:
Egyik sem
bzip2
gzip
csökkent
ZipDeflate
TarGzip
kátrány
Nem típus (alatt compression):

bzip2
gzip
csökkent
ZipDeflate
TarGzip
kátrány
Zip-fájlnév megőrzése mappaként Azt jelzi, hogy a másolás során meg kell-e őrizni a forrás zip-fájl nevét mappastruktúraként. Kijelölve vagy megszüntetve a kijelölést Nem preserveZipFileNameAsFolder
(under compressionProperties->type as ZipDeflateReadSettings)
Tömörítési fájlnév megőrzése mappaként Azt jelzi, hogy a másolás során megőrzi-e a forrás tömörített fájlnevét mappastruktúraként. Kijelölve vagy megszüntetve a kijelölést Nem preserveCompressionFileNameAsFolder
(alatt compressionProperties->type mint TarGZipReadSettings vagy TarReadSettings)
Tömörítési szint  A tömörítési arány. Az engedélyezett értékek optimálisak vagy leggyorsabbak. Optimális vagy leggyorsabb Nem szint (alatt compression):
Leggyorsabb
Optimális
Oszlopelválasztó  A fájl oszlopainak elválasztásához használt karakter(ek).  < a kijelölt oszlopelválasztó >
vessző , (alapértelmezés szerint)
Nem columnDelimiter
Sorelválasztó A fájlokban a sorok elválasztására használt karakter. < a kijelölt sorelválasztó >
\r,\n (alapértelmezés szerint) vagy r\n
Nem rowDelimiter
Kódolás A tesztfájlok olvasásához/írásához használt kódolási típus. "UTF-8" (alapértelmezés szerint),"UTF-8 BOM nélkül", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM8870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1252" 1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" Nem encodingName
Escape karakter Az idézőjelek egy adott értéken belüli feloldásához használható karakter. Ha a feloldó karakter üres sztringként van definiálva, az Idézőjelet is üres sztringként kell beállítani, ebben az esetben győződjön meg arról, hogy az összes oszlopérték nem tartalmaz elválasztójeleket. < a kijelölt escape karakter >
fordított perjel \ (alapértelmezés szerint)
Nem escapeChar
Idézőjel Az oszlopértékeket idéző egyetlen karakter, ha oszlopelválasztót tartalmaz. Ha az Idézőjel üres sztringként van definiálva, az azt jelenti, hogy nincs idézőjel, és az oszlop értéke nem idézőjel, és a feloldó karakter az oszlopelválasztó és magát az oszlophatárolást is feloldja. < a kijelölt idézet karaktere >
dupla idézőjelek " (alapértelmezés szerint)
Nem quoteChar
Első sor fejlécként Megadja, hogy az adott munkalap/tartomány első sorát oszlopnevekkel rendelkező fejlécsorként kell-e kezelni. Kijelölve vagy kijelölve Nem firstRowAsHeader:
igaz vagy hamis (alapértelmezett)
Az összes szöveg idézőjele Az összes értéket idézőjelekbe foglalja. Ki van jelölve (alapértelmezett) vagy nincs kijelölve Nem quoteAllText:
igaz (alapértelmezett) vagy hamis
Fájlkiterjesztés A kimeneti fájlok elnevezéséhez használt fájlkiterjesztés. < a fájlkiterjesztés >
.txt (alapértelmezés szerint)
Nem fileExtension
Sorok maximális száma fájlonként Ha adatokat ír egy mappába, több fájlba is írhat, és megadhatja a fájlonkénti maximális sorokat. < a maximális sorok száma fájlonként > Nem maxRowsPerFile
Fájlnév előtagja Akkor alkalmazható, ha a fájlonkénti sorok maximális száma van konfigurálva. Adja meg a fájlnév előtagot, amikor több fájlba ír adatokat, és a következő mintát eredményezte: <fileNamePrefix>_00000.<fileExtension>. Ha nincs megadva, a rendszer automatikusan létrehozza a fájlnév előtagot. Ez a tulajdonság nem érvényes, ha a forrás fájlalapú tároló vagy partícióbeállítás-kompatibilis adattár. < a fájlnév előtagja > Nem fileNamePrefix