Tagolt szövegformátum a Data Factoryben a Microsoft Fabricben
Ez a cikk bemutatja, hogyan konfigurálhat tagolt szövegformátumot a Data Factory adatfolyamatában a Microsoft Fabricben.
Támogatott képességek
A tagolt szövegformátum a következő tevékenységek és összekötők esetében támogatott forrásként és célként.
Kategória | Összekötő/tevékenység |
---|---|
Támogatott összekötő | Amazon S3 |
Amazon S3 kompatibilis | |
Azure Blob Storage | |
1. generációs Azure Data Lake Storage | |
Azure Data Lake Storage Gen2 | |
Azure Files | |
Fájlrendszer | |
FTP | |
Google Cloud Storage | |
HTTP | |
Lakehouse Files | |
Oracle Cloud Storage | |
SFTP | |
Támogatott tevékenység | Copy tevékenység (forrás/cél) |
Keresési tevékenység | |
GetMetadata-tevékenység | |
Tevékenység törlése |
Tagolt szövegformátum másolási tevékenységben
Ha tagolt szövegformátumot szeretne konfigurálni, válassza ki a kapcsolatot az adatfolyam-másolási tevékenység forrásában vagy célhelyén, majd válassza a DelimitedText lehetőséget a Fájlformátum legördülő listájában. A formátum további konfigurálásához válassza a Beállítások lehetőséget .
Tagolt szövegformátum forrásként
Miután kiválasztotta a Beállítások lehetőséget a Fájlformátum szakaszban, a következő tulajdonságok jelennek meg az előugró Fájlformátum beállításai párbeszédpanelen.
Tömörítés típusa: A tagolt szövegfájlok olvasásához használt tömörítési kodek. A legördülő listában választhat a Nincs, a bzip2, a gzip, a deflát, a ZipDeflate, a TarGzip vagy a tar típus közül.
Ha tömörítési típusként a ZipDeflate lehetőséget választja, a Zip-fájlnév megőrzése mappaként a Forrás lap Speciális beállításai alatt jelenik meg.
- Zip-fájlnév megőrzése mappaként: Azt jelzi, hogy a másolás során meg kell-e őrizni a forrás zip-fájl nevét mappaszerkezetként.
- Ha ez a jelölőnégyzet be van jelölve (alapértelmezett), a szolgáltatás kibontott fájlokat ír a fájlba
<specified file path>/<folder named as source zip file>/
. - Ha ez a jelölőnégyzet nincs bejelölve, a szolgáltatás a kibontott fájlokat közvetlenül a fájlba
<specified file path>
írja. Győződjön meg arról, hogy nincsenek ismétlődő fájlnevek a különböző forrás zip-fájlokban, hogy elkerülje a versenyzést vagy a váratlan viselkedést.
- Ha ez a jelölőnégyzet be van jelölve (alapértelmezett), a szolgáltatás kibontott fájlokat ír a fájlba
Ha tömörítési típusként a TarGzip/tar lehetőséget választja, a tömörítési fájl nevének megőrzése mappaként a Forrás lap Speciális beállításai alatt jelenik meg.
- A tömörítési fájl nevének megőrzése mappaként: Azt jelzi, hogy a másolás során meg kell-e őrizni a forrásként tömörített fájlnevet mappastruktúraként.
- Ha ez a jelölőnégyzet be van jelölve (alapértelmezett), a szolgáltatás tömörített fájlokat ír a fájlba
<specified file path>/<folder named as source compressed file>/
. - Ha ez a jelölőnégyzet nincs bejelölve, a szolgáltatás közvetlenül
<specified file path>
ide írja a tömörített fájlokat. Győződjön meg arról, hogy nincsenek ismétlődő fájlnevek a különböző forrás zip-fájlokban, hogy elkerülje a versenyzést vagy a váratlan viselkedést.
- Ha ez a jelölőnégyzet be van jelölve (alapértelmezett), a szolgáltatás tömörített fájlokat ír a fájlba
- Zip-fájlnév megőrzése mappaként: Azt jelzi, hogy a másolás során meg kell-e őrizni a forrás zip-fájl nevét mappaszerkezetként.
Tömörítési szint: A tömörítési típus kiválasztásakor adja meg a tömörítési arányt. Választhat az Optimális vagy a Leggyorsabb lehetőség közül.
- Leggyorsabb: A tömörítési műveletnek a lehető leggyorsabban végre kell hajtania, még akkor is, ha az eredményül kapott fájl nincs optimálisan tömörítve.
- Optimális: A tömörítési műveletet optimálisan kell tömöríteni, még akkor is, ha a művelet végrehajtása hosszabb időt vesz igénybe. További információ: Tömörítési szint témakör.
Oszlophatároló: A fájl oszlopainak elválasztásához használt karakter(ek). Az alapértelmezett érték a vessző (
,
).Sorelválasztó: Adja meg a fájl sorainak elválasztásához használt karaktert. Csak egy karakter használata engedélyezett. Az alapértelmezett érték a sorcsatorna
\n
.Kódolás: A tesztfájlok olvasásához/írásához használt kódolási típus. Az alapértelmezett érték az UTF-8.
Escape karakter: Az egyetlen karakter, amely az idézőjeleket idézi egy idézeten belül. Az alapértelmezett érték a fordított perjel
\
. Ha a feloldó karakter üres sztringként van definiálva, az Idézőjelet is üres sztringként kell beállítani, ebben az esetben győződjön meg arról, hogy az összes oszlopérték nem tartalmaz elválasztójeleket.Idézőjel: Az oszlopértékeket idéző egyetlen karakter, ha oszlopelválasztót tartalmaz. Az alapértelmezett érték a dupla idézőjel.
"
Ha az Idézőjel üres sztringként van definiálva, az azt jelenti, hogy nincs idézőjel, és az oszlop értéke nem idézőjel, és a feloldó karakter az oszlopelválasztó és magát az oszlophatárolást is feloldja.Első sor fejlécként: Megadja, hogy az első sort fejlécsorként kell-e kezelni/létrehozni oszlopnevekkel. Az engedélyezett értékek ki vannak jelölve, és nem jelölhetők ki (alapértelmezett). Ha az első sor fejlécként nincs kijelölve, vegye figyelembe, hogy a felhasználói felület adatainak előnézete és a keresési tevékenység kimenete automatikusan létrehozza az oszlopneveket Prop_{n} néven (0-tól kezdve), a másolási tevékenységhez explicit leképezésre van szükség a forrástól a célig, és az oszlopokat sorszám szerint kell megkeresni (1-től kezdve).
Null érték: A null érték sztring-ábrázolását adja meg. Az alapértelmezett érték üres sztring.
A Forrás lap Speciális beállításai területén a szövegformátumhoz kapcsolódó egyéb tulajdonságok is elérhetők.
Elhatárolt szövegformátum célként
Miután kiválasztotta a Beállítások lehetőséget a Fájlformátum szakaszban, a következő tulajdonságok jelennek meg az előugró Fájlformátum beállításai párbeszédpanelen.
Tömörítés típusa: A tagolt szövegfájlok írásához használt tömörítési kodek. A legördülő listában választhat a Nincs, a bzip2, a gzip, a deflát, a ZipDeflate, a TarGzip vagy a tar típus közül.
Tömörítési szint: A tömörítési típus kiválasztásakor adja meg a tömörítési arányt. Választhat az Optimális vagy a Leggyorsabb lehetőség közül.
- Leggyorsabb: A tömörítési műveletnek a lehető leggyorsabban végre kell hajtania, még akkor is, ha az eredményül kapott fájl nincs optimálisan tömörítve.
- Optimális: A tömörítési műveletet optimálisan kell tömöríteni, még akkor is, ha a művelet végrehajtása hosszabb időt vesz igénybe. További információ: Tömörítési szint témakör.
Oszlophatároló: A fájl oszlopainak elválasztásához használt karakter(ek). Az alapértelmezett érték a vessző (
,
).Sorelválasztó: A fájl sorainak elválasztásához használt karakter. Csak egy karakter használata engedélyezett. Az alapértelmezett érték a sorcsatorna
\n
.Kódolás: A tesztfájlok írásához használt kódolási típus. Az alapértelmezett érték az UTF-8.
Escape karakter: Az egyetlen karakter, amely az idézőjeleket idézi egy idézeten belül. Az alapértelmezett érték a fordított perjel
\
. Ha a feloldó karakter üres sztringként van definiálva, az Idézőjelet is üres sztringként kell beállítani, ebben az esetben győződjön meg arról, hogy az összes oszlopérték nem tartalmaz elválasztójeleket.Idézőjel: Az oszlopértékeket idéző egyetlen karakter, ha oszlopelválasztót tartalmaz. Az alapértelmezett érték a dupla idézőjel.
"
Ha az Idézőjel üres sztringként van definiálva, az azt jelenti, hogy nincs idézőjel, és az oszlop értéke nem idézőjel, és a feloldó karakter az oszlopelválasztó és magát az oszlophatárolást is feloldja.Első sor fejlécként: Megadja, hogy az első sort fejlécsorként kell-e kezelni/létrehozni oszlopnevekkel. Az engedélyezett értékek ki vannak jelölve, és nem jelölhetők ki (alapértelmezett). Ha az első sor fejlécként nincs kijelölve, vegye figyelembe, hogy a felhasználói felület adatainak előnézete és a keresési tevékenység kimenete automatikusan létrehozza az oszlopneveket Prop_{n} néven (0-tól kezdve), a másolási tevékenységhez explicit leképezésre van szükség a forrástól a célig, és az oszlopokat sorszám szerint kell megkeresni (1-től kezdve).
Null érték: A null érték sztring-ábrázolását adja meg. Az alapértelmezett érték üres sztring.
A Cél lapon a Speciális beállítások területen további tagolt szövegformátummal kapcsolatos tulajdonság jelenik meg.
Idézőjel az összes szövegben: Az összes értéket idézőjelekbe foglalja.
Fájlkiterjesztés: A kimeneti fájlok elnevezésére használt fájlkiterjesztés, például:
.csv
,.txt
.Fájlonkénti sorok maximális száma: Ha adatokat ír egy mappába, több fájlba is írhat, és megadhatja a fájlonkénti maximális sorokat.
Fájlnév előtagja: Akkor alkalmazható, ha a fájlonkénti sorok maximális száma konfigurálva van. Adja meg a fájlnév előtagot, amikor több fájlba ír adatokat, és a következő mintát eredményezte:
<fileNamePrefix>_00000.<fileExtension>
. Ha nincs megadva, a rendszer automatikusan létrehozza a fájlnév előtagot. Ez a tulajdonság nem érvényes, ha a forrás fájlalapú tároló vagy partícióbeállítás-kompatibilis adattár.
Táblázat összefoglalása
Elhatárolt szöveg forrásként
A másolási tevékenység Forrás szakaszában a következő tulajdonságok támogatottak, ha tagolt szövegformátumot használ.
Név | Leírás | Érték | Szükséges | JSON-szkripttulajdonság |
---|---|---|---|---|
Fájlformátum | A használni kívánt fájlformátum. | Tagolt szöveg | Igen | típus (alatt datasetSettings ):Tagolt szöveg |
Tömörítés típusa | A tagolt szövegfájlok olvasásához használt tömörítési kodek. | Válasszon a következők közül: Egyik sem bzip2 gzip csökkent ZipDeflate TarGzip kátrány |
Nem | típus (alatt compression ): bzip2 gzip csökkent ZipDeflate TarGzip kátrány |
Zip-fájlnév megőrzése mappaként | Azt jelzi, hogy a másolás során meg kell-e őrizni a forrás zip-fájl nevét mappastruktúraként. A ZipDeflate tömörítés kiválasztásakor érvényes. | Kijelölve vagy megszüntetve a kijelölést | Nem | preserveZipFileNameAsFolder (under compressionProperties ->type as ZipDeflateReadSettings ) |
Tömörítési fájlnév megőrzése mappaként | Azt jelzi, hogy a másolás során megőrzi-e a forrás tömörített fájlnevét mappastruktúraként. A TarGzip/tar tömörítés kiválasztásakor érvényes. | Kijelölve vagy megszüntetve a kijelölést | Nem | preserveCompressionFileNameAsFolder (alatt compressionProperties ->type mint TarGZipReadSettings vagy TarReadSettings ) |
Tömörítési szint | A tömörítési arány. Az engedélyezett értékek optimálisak vagy leggyorsabbak. | Optimális vagy leggyorsabb | Nem | szint (alatt compression ): Leggyorsabb Optimális |
Oszlopelválasztó | A fájl oszlopainak elválasztásához használt karakter(ek). | < a kijelölt oszlopelválasztó > vessző , (alapértelmezés szerint) |
Nem | columnDelimiter |
Sorelválasztó | A fájlokban a sorok elválasztására használt karakter. | < a kijelölt sorelválasztó > \r ,\n (alapértelmezés szerint) vagy r\n |
Nem | rowDelimiter |
Kódolás | A tesztfájlok olvasásához/írásához használt kódolási típus. | "UTF-8" (alapértelmezés szerint),"UTF-8 BOM nélkül", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM8870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1252" 1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" | Nem | encodingName |
Escape karakter | Az idézőjelek egy adott értéken belüli feloldásához használható karakter. Ha a feloldó karakter üres sztringként van definiálva, az Idézőjelet is üres sztringként kell beállítani, ebben az esetben győződjön meg arról, hogy az összes oszlopérték nem tartalmaz elválasztójeleket. | < a kijelölt escape karakter > fordított perjel \ (alapértelmezés szerint) |
Nem | escapeChar |
Idézőjel | Az oszlopértékeket idéző egyetlen karakter, ha oszlopelválasztót tartalmaz. Ha az Idézőjel üres sztringként van definiálva, az azt jelenti, hogy nincs idézőjel, és az oszlop értéke nem idézőjel, és a feloldó karakter az oszlopelválasztó és magát az oszlophatárolást is feloldja. | < a kijelölt idézet karaktere > dupla idézőjelek " (alapértelmezés szerint) |
Nem | quoteChar |
Első sor fejlécként | Megadja, hogy az adott munkalap/tartomány első sorát oszlopnevekkel rendelkező fejlécsorként kell-e kezelni. | Kijelölve vagy kijelölve | Nem | firstRowAsHeader: igaz vagy hamis (alapértelmezett) |
Null érték | A null érték sztring-ábrázolását adja meg. Az alapértelmezett érték üres sztring. | < a null érték sztring-ábrázolása > üres sztring (alapértelmezés szerint) |
Nem | nullValue |
Elhatárolt szöveg célként
A másolási tevékenység Cél szakasza a következő tulajdonságokat támogatja, ha tagolt szövegformátumot használ.
Név | Leírás | Érték | Szükséges | JSON-szkripttulajdonság |
---|---|---|---|---|
Fájlformátum | A használni kívánt fájlformátum. | Tagolt szöveg | Igen | típus (alatt datasetSettings ):Tagolt szöveg |
Tömörítés típusa | A tagolt szövegfájlok írásához használt tömörítési kodek. | Válasszon a következők közül: Egyik sem bzip2 gzip csökkent ZipDeflate TarGzip kátrány |
Nem | típus (alatt compression ): bzip2 gzip csökkent ZipDeflate TarGzip kátrány |
Zip-fájlnév megőrzése mappaként | Azt jelzi, hogy a másolás során meg kell-e őrizni a forrás zip-fájl nevét mappastruktúraként. | Kijelölve vagy megszüntetve a kijelölést | Nem | preserveZipFileNameAsFolder (under compressionProperties ->type as ZipDeflateReadSettings ) |
Tömörítési fájlnév megőrzése mappaként | Azt jelzi, hogy a másolás során megőrzi-e a forrás tömörített fájlnevét mappastruktúraként. | Kijelölve vagy megszüntetve a kijelölést | Nem | preserveCompressionFileNameAsFolder (alatt compressionProperties ->type mint TarGZipReadSettings vagy TarReadSettings ) |
Tömörítési szint | A tömörítési arány. Az engedélyezett értékek optimálisak vagy leggyorsabbak. | Optimális vagy leggyorsabb | Nem | szint (alatt compression ): Leggyorsabb Optimális |
Oszlopelválasztó | A fájl oszlopainak elválasztásához használt karakter(ek). | < a kijelölt oszlopelválasztó > vessző , (alapértelmezés szerint) |
Nem | columnDelimiter |
Sorelválasztó | A fájlokban a sorok elválasztására használt karakter. | < a kijelölt sorelválasztó > \r ,\n (alapértelmezés szerint) vagy r\n |
Nem | rowDelimiter |
Kódolás | A tesztfájlok olvasásához/írásához használt kódolási típus. | "UTF-8" (alapértelmezés szerint),"UTF-8 BOM nélkül", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM8870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1252" 1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" | Nem | encodingName |
Escape karakter | Az idézőjelek egy adott értéken belüli feloldásához használható karakter. Ha a feloldó karakter üres sztringként van definiálva, az Idézőjelet is üres sztringként kell beállítani, ebben az esetben győződjön meg arról, hogy az összes oszlopérték nem tartalmaz elválasztójeleket. | < a kijelölt escape karakter > fordított perjel \ (alapértelmezés szerint) |
Nem | escapeChar |
Idézőjel | Az oszlopértékeket idéző egyetlen karakter, ha oszlopelválasztót tartalmaz. Ha az Idézőjel üres sztringként van definiálva, az azt jelenti, hogy nincs idézőjel, és az oszlop értéke nem idézőjel, és a feloldó karakter az oszlopelválasztó és magát az oszlophatárolást is feloldja. | < a kijelölt idézet karaktere > dupla idézőjelek " (alapértelmezés szerint) |
Nem | quoteChar |
Első sor fejlécként | Megadja, hogy az adott munkalap/tartomány első sorát oszlopnevekkel rendelkező fejlécsorként kell-e kezelni. | Kijelölve vagy kijelölve | Nem | firstRowAsHeader: igaz vagy hamis (alapértelmezett) |
Az összes szöveg idézőjele | Az összes értéket idézőjelekbe foglalja. | Ki van jelölve (alapértelmezett) vagy nincs kijelölve | Nem | quoteAllText: igaz (alapértelmezett) vagy hamis |
Fájlkiterjesztés | A kimeneti fájlok elnevezéséhez használt fájlkiterjesztés. | < a fájlkiterjesztés > .txt (alapértelmezés szerint) |
Nem | fileExtension |
Sorok maximális száma fájlonként | Ha adatokat ír egy mappába, több fájlba is írhat, és megadhatja a fájlonkénti maximális sorokat. | < a maximális sorok száma fájlonként > | Nem | maxRowsPerFile |
Fájlnév előtagja | Akkor alkalmazható, ha a fájlonkénti sorok maximális száma van konfigurálva. Adja meg a fájlnév előtagot, amikor több fájlba ír adatokat, és a következő mintát eredményezte: <fileNamePrefix>_00000.<fileExtension> . Ha nincs megadva, a rendszer automatikusan létrehozza a fájlnév előtagot. Ez a tulajdonság nem érvényes, ha a forrás fájlalapú tároló vagy partícióbeállítás-kompatibilis adattár. |
< a fájlnév előtagja > | Nem | fileNamePrefix |
Kapcsolódó tartalom
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: