Megjegyzés
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhat bejelentkezni vagy módosítani a címtárat.
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhatja módosítani a címtárat.
A:
Azure Data Factory
Azure Synapse Analytics
Tipp.
Kövesse ezt a cikket, ha elemezni szeretné az ORC-fájlokat, vagy ORC formátumban szeretné írni az adatokat.
Az ORC formátum a következő összekötők esetében támogatott: Amazon S3, Amazon S3 kompatibilis tároló, Azure Blob, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Files, File System, FTP, Google Cloud Storage, HDFS, HTTP, Felhőtároló és SFTP.
Adathalmaz tulajdonságai
Az adathalmazok meghatározásához elérhető szakaszok és tulajdonságok teljes listáját az Adathalmazok című cikkben találja. Ez a szakasz az ORC-adatkészlet által támogatott tulajdonságok listáját tartalmazza.
| Tulajdonság | Leírás | Kötelező |
|---|---|---|
| típus | Az adathalmaz típustulajdonságának Orc értékre kell állítania. | Igen |
| hely | A fájl(ok) helybeállításai. Minden fájlalapú összekötő saját helytípussal és támogatott tulajdonságokkal rendelkezik a(z) < a0/> alatt location.
Lásd az összekötőkről szóló cikk –> Adathalmaz tulajdonságai szakasz részleteit. |
Igen |
| compressionCodec | Az ORC-fájlokba való íráshoz használandó tömörítési kodek. ORC-fájlokból való olvasáskor a Data Factories automatikusan meghatározza a tömörítési kodeket a fájl metaadatai alapján. A támogatott típusok a következők: nincs, zlib, snappy (alapértelmezett) és lzo. Vegye figyelembe, hogy jelenleg Copy tevékenység nem támogatja az LZO-t ORC-fájlok olvasása/írása során. |
Nem |
Az alábbiakban egy példa látható az ORC-adatkészletre a Azure Blob Storage:
{
"name": "OrcDataset",
"properties": {
"type": "Orc",
"linkedServiceName": {
"referenceName": "<Azure Blob Storage linked service name>",
"type": "LinkedServiceReference"
},
"schema": [ < physical schema, optional, retrievable during authoring > ],
"typeProperties": {
"location": {
"type": "AzureBlobStorageLocation",
"container": "containername",
"folderPath": "folder/subfolder",
}
}
}
}
Vegye figyelembe az alábbiakat:
- Az összetett adattípusok (pl. MAP, LIST, STRUCT) jelenleg csak Adatfolyam támogatottak, másolási tevékenységben nem. Ha összetett típusokat szeretne használni az adatfolyamokban, ne importálja a fájlsémát az adathalmazba, és hagyja üresen a sémát az adathalmazban. Ezután a Forrás átalakítás során importálja a vetületet.
- Az oszlopnévben lévő üres terület nem támogatott.
Copy tevékenység tulajdonságok
A tevékenységek meghatározásához elérhető szakaszok és tulajdonságok teljes listáját a Folyamatok című cikkben találja. Ez a szakasz az ORC-forrás és a fogadó által támogatott tulajdonságok listáját tartalmazza.
ORC forrásként
A másolási tevékenység *forrás* szakasza az alábbi tulajdonságokat támogatja.
| Tulajdonság | Leírás | Kötelező |
|---|---|---|
| típus | A másolási tevékenység forrásának típustulajdonságát OrcSource értékre kell állítani. | Igen |
| storeSettings | Az adatok adattárból való olvasására vonatkozó tulajdonságok csoportja. Minden fájlalapú összekötő saját támogatott olvasási beállításokkal rendelkezik a következő alatt storeSettings: .
A -> Copy tevékenység tulajdonságok szakaszában. |
Nem |
ORC fogadóként
A másolási tevékenység *fogadó* szakasza az alábbi tulajdonságokat támogatja.
| Tulajdonság | Leírás | Kötelező |
|---|---|---|
| típus | A másolási tevékenység fogadójának típustulajdonságát OrcSink értékre kell állítani. | Igen |
| formatSettings | Egy tulajdonságcsoport. Tekintse meg az ORC írási beállításainak alábbi táblázatát. | Nem |
| storeSettings | Az adatok adattárba való írására vonatkozó tulajdonságok csoportja. Minden fájlalapú összekötő saját támogatott írási beállításokkal rendelkezik a .storeSettings
A -> Copy tevékenység tulajdonságok szakaszában. |
Nem |
Támogatott ORC írási beállítások a következő területenformatSettings:
| Tulajdonság | Leírás | Kötelező |
|---|---|---|
| típus | A formatSettings típusának OrcWriteSettings értékre kell állítania. | Igen |
| maxRowsPerFile | Ha adatokat ír egy mappába, több fájlba is írhat, és megadhatja a fájlonkénti maximális sorokat. | Nem |
| fileNamePrefix | Konfiguráláskor maxRowsPerFile alkalmazható.Adja meg a fájlnév előtagot, amikor több fájlba ír adatokat, és a következő mintát eredményezte: <fileNamePrefix>_00000.<fileExtension>. Ha nincs megadva, a rendszer automatikusan létrehozza a fájlnév előtagot. Ez a tulajdonság nem érvényes, ha a forrás fájlalapú tároló vagy partícióbeállítás-kompatibilis adattár. |
Nem |
Adatfolyam-tulajdonságok leképezése
Az adatfolyamok leképezése során a következő adattárakban olvashat és írhat ORC formátumban: Azure Blob Storage, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2 és SFTP, az ORC formátumot pedig Amazon S3.
ORC-fájlokra mutathat ORC-adatkészlet vagy beágyazott adatkészlet használatával.
Forrástulajdonságok
Az alábbi táblázat felsorolja az ORC-forrás által támogatott tulajdonságokat. Ezeket a tulajdonságokat a Forrás beállításai lapon szerkesztheti.
Beágyazott adatkészlet használata esetén további fájlbeállítások jelennek meg, amelyek megegyeznek az adathalmaz tulajdonságainak szakaszában leírt tulajdonságokkal.
| Név | Leírás | Kötelező | Megengedett értékek | Adatfolyam-szkript tulajdonság |
|---|---|---|---|---|
| Formátum | A formátumnak orc |
igen | orc |
format |
| Helyettesítő kártya elérési útjai | A program minden olyan fájlt feldolgoz, amely megfelel a helyettesítő karakter elérési útjának. Felülbírálja az adathalmazban beállított mappát és fájl elérési útját. | nem | Karakterlánc[] | helyettesítő karakterekPaths |
| Partíció gyökérútvonala | A particionált fájladatok esetében megadhat egy partíció gyökérútvonalát, hogy a particionált mappákat oszlopként olvassa be | nem | Sztring | partitionRootPath |
| Fájlok listája | Azt jelzi, hogy a forrás olyan szövegfájlra mutat-e, amely felsorolja a feldolgozandó fájlokat | nem |
true vagy false |
fileList |
| A fájlnév tárolására használt oszlop | Új oszlop létrehozása a forrásfájl nevével és elérési útjával | nem | Sztring | rowUrlColumn |
| A befejezés után | A feldolgozás után törölje vagy helyezze át a fájlokat. A fájl elérési útja a tároló gyökerétől indul | nem | Törlés: true vagy false Mozog: [<from>, <to>] |
purgeFiles moveFiles |
| Szűrés utoljára módosítva | Fájlok szűrésének kiválasztása az utolsó módosításuk időpontjától függően | nem | Időbélyegző | modifiedAfter modifiedBefore |
| Nem található fájl engedélyezése | Ha igaz, a rendszer nem ad hibát, ha nem található fájl | nem |
true vagy false |
ignoreNoFilesFound |
Példa forrásra
Az ORC-forráskonfiguráció társított adatfolyam-szkriptje a következő:
source(allowSchemaDrift: true,
validateSchema: false,
rowUrlColumn: 'fileName',
format: 'orc') ~> OrcSource
Fogadó tulajdonságai
Az alábbi táblázat felsorolja az ORC-fogadó által támogatott tulajdonságokat. Ezeket a tulajdonságokat a Beállítások lapon szerkesztheti.
Beágyazott adatkészlet használata esetén további fájlbeállítások jelennek meg, amelyek megegyeznek az adathalmaz tulajdonságainak szakaszában leírt tulajdonságokkal.
| Név | Leírás | Kötelező | Megengedett értékek | Adatfolyam-szkript tulajdonság |
|---|---|---|---|---|
| Formátum | A formátumnak orc |
igen | orc |
format |
| A mappa törlése | Ha a célmappa írás előtt törlődik | nem |
true vagy false |
csonkol |
| Fájlnév beállítás | A megírt adatok elnevezési formátuma. Alapértelmezés szerint partíciónként egy fájl formátuma part-#####-tid-<guid> |
nem | Minta: Sztring Partíciónként: Sztring[] Adatok az oszlopban: Sztring Kimenet egyetlen fájlba: ['<fileName>'] |
filePattern partitionFileNames rowUrlColumn partitionFileNames |
Fogadó példa
Az ORC fogadó konfigurációjának társított adatfolyam-szkriptje a következő:
OrcSource sink(
format: 'orc',
filePattern:'output[n].orc',
truncate: true,
allowSchemaDrift: true,
validateSchema: false,
skipDuplicateMapInputs: true,
skipDuplicateMapOutputs: true) ~> OrcSink
Saját üzemeltetésű Integration Runtime használata
Fontos
A saját üzemeltetésű Integration Runtime( például a helyszíni és a felhőbeli adattárak közötti) másoláshoz, ha nem másol ORC-fájlokat as-is, telepítenie kell a 64 bites JRE 8 (Java Futtatókörnyezet) vagy az OpenJDK és Microsoft Visual C++ 2010 terjeszthető csomag az INTEGRÁCIÓs gépen. További részletekért tekintse meg a következő bekezdést.
A saját üzemeltetésű integrációs modulon orc fájlszerializálással/deszerializálással futtatott példányok esetében a szolgáltatás megkeresi a Java futtatókörnyezetet, először ellenőrizze a beállításjegyzék (SOFTWARE\JavaSoft\Java Runtime Environment\{Current Version}\JavaHome) JRE beállításjegyzékét, ha nem található, másodszor pedig ellenőrizze az OpenJDK JAVA_HOME rendszerváltozót.
- A JRE használatához: A 64 bites integrációs modulhoz 64 bites JRE szükséges. Innen megtalálhatja.
- Az OpenJDK használata: Az INTEGRÁCIÓ 3.13-as verziója óta támogatott. Csomagolja be a jvm.dll az OpenJDK minden más szükséges szerelvényével egy saját üzemeltetésű integrációs modulba, és ennek megfelelően állítsa be a rendszerkörnyezet változóját JAVA_HOME.
- A Visual C++ 2010 terjeszthető csomag telepítéséhez: A Visual C++ 2010 terjeszthető csomag nincs telepítve saját üzemeltetésű integrációs modul telepítésével. Innen megtalálhatja.
Tipp.
Ha saját üzemeltetésű Integration Runtime használatával másol adatokat ORC formátumba vagy onnan, és a következő hibaüzenetet kapja: "Hiba történt java meghívásakor, üzenet: java.lang. OutOfMemoryError:Java halomterület", hozzáadhat egy környezeti változót _JAVA_OPTIONS a saját üzemeltetésű integrációs modult futtató gépen, hogy módosítsa a JVM minimális/maximális halomméretét a másolás elősegítéséhez, majd futtassa újra a folyamatot.
Példa: állítsa be a változót _JAVA_OPTIONS értékként -Xms256m -Xmx16g. A jelölő Xms egy Java virtuális gép (JVM) kezdeti memóriafoglalási készletét adja meg, míg a Xmx a maximális memóriafoglalási készletet. Ez azt jelenti, hogy a JVM a memória mennyiségével Xms lesz elindítva, és maximális Xmx mennyiségű memóriát fog tudni használni. Alapértelmezés szerint a szolgáltatás min. 64 MB-ot és legfeljebb 1G-t használ.