Adattárház konfigurálása másolási tevékenységben
Ez a cikk azt ismerteti, hogyan használhatja a másolási tevékenységet az adatfolyamban adatok adattárházból és adattárházba való másolásához.
Támogatott konfiguráció
A másolási tevékenység alatt lévő lapok konfigurációjához tekintse meg a következő szakaszokat.
Általános
Az Általános lap konfigurációjához lépjen az Általános lapra.
Forrás
A másolási tevékenységben az adattárház a következő tulajdonságokat támogatja forrásként.
A következő tulajdonságok szükségesek:
Adattár típusa: Munkaterület kiválasztása.
Munkaterület adattártípusa: Válassza ki az Adattárházat az adattártípus-listából.
Adattárház: Válasszon ki egy meglévő adattárházat a munkaterületről.
Lekérdezés használata: Tábla, lekérdezés vagy tárolt eljárás kiválasztása.
Ha a Táblázat lehetőséget választja, válasszon ki egy meglévő táblát a táblázatlistából, vagy adjon meg manuálisan egy táblanevet a Szerkesztés mező kiválasztásával.
Ha a Lekérdezés lehetőséget választja, az egyéni SQL-lekérdezésszerkesztővel írjon egy SQL-lekérdezést, amely lekéri a forrásadatokat.
Ha a Tárolt eljárást választja, válasszon ki egy meglévő tárolt eljárást a legördülő listából, vagy a Szerkesztés mező kiválasztásával adjon meg egy tárolt eljárásnevet forrásként.
A Speciális területen a következő mezőket adhatja meg:
Lekérdezési időtúllépés (perc):: Időtúllépés a lekérdezési parancsok végrehajtásához, alapértelmezés szerint 120 perc. Ha ez a tulajdonság be van állítva, az engedélyezett értékek időbélyeg formátumban vannak, például "02:00:00" (120 perc).
Elkülönítési szint: Adja meg az SQL-forrás tranzakciózárolási viselkedését.
Partíciós beállítás: Adja meg a Data Warehouse-ból való adatok betöltéséhez használt adatparticionálási beállításokat. Válassza a Nincs vagy a Dinamikus tartomány lehetőséget.
Ha a dinamikus tartományt választja, a tartománypartíciós paraméterre(
?AdfDynamicRangePartitionCondition
) van szükség, ha a lekérdezés párhuzamos engedélyezve van. Minta lekérdezés:SELECT * FROM <TableName> WHERE ?AdfDynamicRangePartitionCondition
.- Partícióoszlop neve: Adja meg a forrásoszlop nevét egész számban vagy dátum/dátum/idő típusban (
int
, ,smallint
,bigint
,date
,smalldatetime
,datetime
, ,datetime2
)datetimeoffset
, amelyet a tartomány particionálása használ a párhuzamos másoláshoz. Ha nincs megadva, a rendszer automatikusan észleli a tábla indexét vagy elsődleges kulcsát, és partícióoszlopként használja. - Partíció felső határa: A partícióoszlop maximális értéke a partíciótartomány felosztásához. Ez az érték határozza meg a partíciós léptetést, nem pedig a tábla sorainak szűrésére. A tábla vagy a lekérdezés eredményének összes sora particionálásra és másolásra kerül.
- Partíció alsó határa: A partíciótartományok felosztásához használt partícióoszlop minimális értéke. Ez az érték határozza meg a partíciós léptetést, nem pedig a tábla sorainak szűrésére. A tábla vagy a lekérdezés eredményének összes sora particionálásra és másolásra kerül.
- Partícióoszlop neve: Adja meg a forrásoszlop nevét egész számban vagy dátum/dátum/idő típusban (
További oszlopok: További adatoszlopok hozzáadása a forrásfájlok relatív elérési útjának vagy statikus értékének tárolásához. A kifejezés az utóbbi esetében támogatott.
Cél
A másolási tevékenységben az adattárház célként az alábbi tulajdonságokat támogatja.
A következő tulajdonságok szükségesek:
- Adattár típusa: Munkaterület kiválasztása.
- Munkaterület adattártípusa: Válassza ki az Adattárházat az adattártípus-listából.
- Adattárház: Válasszon ki egy meglévő adattárházat a munkaterületről.
- Táblázat: Válasszon ki egy meglévő táblát a táblázatlistából, vagy adjon meg egy táblanevet célként.
A Speciális területen a következő mezőket adhatja meg:
Másolási parancs beállításai: A másolási parancs tulajdonságainak megadása.
Táblázatbeállítások: Adja meg, hogy automatikusan létre kívánja-e hozni a céltáblát, ha a forrásséma alapján nincs ilyen. Választhatja a Nincs vagy az Automatikus létrehozás táblát.
Szkript előzetes másolása: Adjon meg egy futtatandó SQL-lekérdezést, mielőtt adatokat írna az Adattárházba minden futtatás során. Ezzel a tulajdonságkal törölheti az előre betöltött adatokat.
Köteg időtúllépésének írása: A köteg beszúrási műveletének várakozási ideje, mielőtt túllépi az időkorlátot. Az engedélyezett értékek időbélyeg formátumúak. Az alapértelmezett érték a "00:30:00" (30 perc).
Teljesítménymetrika-elemzés letiltása: A szolgáltatás a másolási teljesítmény optimalizálásához és a javaslatokhoz gyűjt metrikákat. Ha ez a viselkedés érdekli, kapcsolja ki ezt a funkciót.
Közvetlen másolat
A COPY utasítás az adatok Warehouse-táblákba való betöltésének elsődleges módja. A Data Warehouse COPY parancs közvetlenül támogatja az Azure Blob Storage-t és az Azure Data Lake Storage Gen2-t forrásadattárként. Ha a forrásadatok megfelelnek az ebben a szakaszban leírt feltételeknek, a COPY paranccsal másolja át közvetlenül a forrásadattárból az Adattárházba.
A forrásadatok és formátum a következő típusokat és hitelesítési módszereket tartalmazzák:
Támogatott forrásadattár-típus Támogatott formátum Támogatott forráshitelesítés típusa Azure Blob Storage Tagolt szöveg
ParkettaNévtelen hitelesítés
Fiókkulcs-hitelesítés
Közös hozzáférésű jogosultságkód hitelesítéseAzure Data Lake Storage Gen2 Tagolt szöveg
ParkettaFiókkulcs-hitelesítés
Közös hozzáférésű jogosultságkód hitelesítéseA következő formátumbeállítások állíthatók be:
- Parquet esetén: A tömörítés típusa Lehet None, snappy vagy gzip.
- Elválasztószöveg esetén:
- Sorelválasztó: Ha a tagolt szöveget közvetlen COPY paranccsal másolja az Adattárházba, explicit módon adja meg a sorelválasztót (\r; \n; vagy \r\n). Az alapértelmezett érték (\r, \n vagy \r\n) csak akkor működik, ha a forrásfájl sorelválasztója \r\n. Ellenkező esetben engedélyezze az előkészítést a forgatókönyvhöz.
- A null érték marad alapértelmezettként, vagy üres sztring ("") értékre van állítva.
- A kódolás alapértelmezettként marad, vagy UTF-8 vagy UTF-16 értékre van állítva.
- A sorszám kihagyása alapértelmezés szerint marad, vagy 0 értékre van állítva.
- A tömörítés típusa lehet Nincs vagy gzip.
Ha a forrás egy mappa, jelölje be a Rekurzívan jelölőnégyzetet.
Nincs megadva a kezdő időpont (UTC) és a befejezési idő (UTC) a szűrőben a legutóbbi módosítás szerint, az előtag, a partíciófelderítés engedélyezése és a további oszlopok .
Ebből a cikkből megtudhatja, hogyan lehet adatokat beszedni az adattárházba a COPY paranccsal.
Ha a forrásadattárat és a formátumot eredetileg nem támogatja a COPY parancs, használja inkább a szakaszos másolatot a COPY parancs funkcióval. Automatikusan COPY paranccsal kompatibilis formátumba alakítja át az adatokat, majd meghív egy COPY parancsot az adatok Data Warehouse-ba való betöltéséhez.
Szakaszos másolat
Ha a forrásadatok natív módon nem kompatibilisek a COPY paranccsal, engedélyezze az adatok átmeneti átmeneti tárolón keresztüli másolását. Ebben az esetben a szolgáltatás automatikusan átalakítja az adatokat úgy, hogy megfeleljenek a COPY parancs adatformátum-követelményeinek. Ezután meghívja a COPY parancsot az adatok Data Warehouse-ba való betöltéséhez. Végül megtisztítja az ideiglenes adatokat a tárból.
A szakaszos másolás használatához lépjen a Beállítások lapra , és válassza az Előkészítés engedélyezése lehetőséget. A Munkaterület lehetőséget választva automatikusan létrehozott átmeneti tárolót használhat a Hálóban. Külső tárolóként az Azure Blob Storage és az Azure Data Lake Storage Gen2 is támogatott. Először létre kell hoznia egy Azure Blob Storage- vagy Azure Data Lake Storage Gen2-kapcsolatot, majd a legördülő listából válassza ki a kapcsolatot az átmeneti tároló használatához.
Vegye figyelembe, hogy meg kell győződnie arról, hogy az adattárház IP-tartománya megfelelően lett engedélyezve az átmeneti tárolóból.
Hozzárendelés
A Leképezés lap konfigurációjához, ha nem alkalmazza az Adattárházat, és az automatikus létrehozási táblázatot szeretné célként alkalmazni, lépjen a Leképezés gombra.
Ha az Adattárházat automatikus létrehozási táblával alkalmazza célként, a leképezési konfiguráció kivételével szerkesztheti a céloszlopok típusát. Az Importálási sémák kiválasztása után megadhatja az oszloptípust a célhelyen.
Például a forrás azonosító oszlopának típusa int, és a céloszlopra való leképezéskor módosíthatja lebegőpontos típusra.
Beállítások
A Beállítások lap konfigurációjához válassza a Beállítások lehetőséget.
Táblázat összefoglalása
Az alábbi táblázatok további információkat tartalmaznak az adattárházban végzett másolási tevékenységről.
Forrásadatok
Név | Leírás | Érték | Szükséges | JSON-szkripttulajdonság |
---|---|---|---|---|
Adattár típusa | Az adattár típusa. | Munkaterület | Igen | / |
Munkaterület adattártípusa | A munkaterület adattártípusának kiválasztásához használt szakasz. | Adattárház | Igen | típus |
Adattárház | A használni kívánt adattárház. | <az adattárház> | Igen | endpoint artifactId |
Lekérdezés használata | Az adatraktárból való adatolvasás módja. | •Táblázatok •Lekérdezés • Tárolt eljárás |
Nem | (a ->source ) alatt typeProperties • typeProperties: schema table • sqlReaderQuery • sqlReaderStoredProcedureName |
Lekérdezés időtúllépése (perc) | Időtúllépés a lekérdezési parancsok végrehajtásához, alapértelmezés szerint 120 perc. Ha ez a tulajdonság be van állítva, az engedélyezett értékek időbélyeg formátumban vannak, például "02:00:00" (120 perc). | időtartomány | Nem | queryTimeout |
Elkülönítési szint | A forrás tranzakciózárolási viselkedése. | •Egyik sem •Pillanatfelvétel |
Nem | isolationLevel |
Partíciós beállítás | Az adatraktárból való adatbetöltéshez használt adatparticionálási beállítások. | •Egyik sem • Dinamikus tartomány |
Nem | partitionOption |
Partícióoszlop neve | A forrásoszlop neve egész számban vagy dátum/dátum/idő típusban (int , , smallint , bigint , date smalldatetime , datetime , , datetime2 ) datetimeoffset , amelyet a tartomány particionálása használ a párhuzamos másoláshoz. Ha nincs megadva, a rendszer automatikusan észleli a tábla indexét vagy elsődleges kulcsát, és partícióoszlopként használja. |
<partícióoszlop neve> | Nem | partitionColumnName |
Partíció felső határa | A partíciótartományok felosztásához használt partícióoszlop maximális értéke. Ez az érték határozza meg a partíciós léptetést, nem pedig a tábla sorainak szűrésére. A tábla vagy a lekérdezés eredményének összes sora particionálásra és másolásra kerül. | <partíció felső határa> | Nem | partitionUpperBound |
Partíció alsó határa | A partíciótartományok felosztásához használt partícióoszlop minimális értéke. Ez az érték határozza meg a partíciós léptetést, nem pedig a tábla sorainak szűrésére. A tábla vagy a lekérdezés eredményének összes sora particionálásra és másolásra kerül. | <partíció alsó határa> | Nem | partitionLowerBound |
További oszlopok | Adjon hozzá további adatoszlopokat a forrásfájlok relatív elérési útjának vagy statikus értékének tárolásához. | •Név •Érték |
Nem | továbbicolumnok: •név •érték |
Céladatok
Név | Leírás | Érték | Szükséges | JSON-szkripttulajdonság |
---|---|---|---|---|
Adattár típusa | Az adattár típusa. | Munkaterület | Igen | / |
Munkaterület adattártípusa | A munkaterület adattártípusának kiválasztásához használt szakasz. | Adattárház | Igen | típus |
Adattárház | A használni kívánt adattárház. | <az adattárház> | Igen | endpoint artifactId |
Tábla | Az adatok írásához használt céltábla. | <a céltábla neve> | Igen | séma table |
Parancsbeállítások másolása | A másolási parancs tulajdonságbeállításai. Az alapértelmezett értékbeállításokat tartalmazza. | Alapértelmezett érték: •Oszlop •Érték |
Nem | copyCommandSettings: defaultValues: • columnName • defaultValue |
Táblázat lehetőség | Azt határozza meg, hogy automatikusan létre kívánja-e hozni a céltáblát, ha a forrásséma alapján egyik sem létezik. | •Egyik sem • Táblázat automatikus létrehozása |
Nem | tableOption: • autoCreate |
Szkript előzetes másolása | Sql-lekérdezést kell futtatni, mielőtt adatokat írna a Data Warehouse-ba minden futtatás során. Ezzel a tulajdonságkal törölheti az előre betöltött adatokat. | <szkript előzetes másolása> | Nem | preCopyScript |
Köteg időtúllépésének írása | A köteg beszúrási műveletének várakozási ideje, mielőtt túllépi az időkorlátot. Az engedélyezett értékek időbélyeg formátumúak. Az alapértelmezett érték a "00:30:00" (30 perc). | időtartomány | Nem | writeBatchTimeout |
Teljesítménymetrikák elemzésének letiltása | A szolgáltatás metrikákat gyűjt a másolási teljesítmény optimalizálásához és a javaslatokhoz, amelyek további főadatbázis-hozzáférést vezetnek be. | kijelölés vagy a kijelölés megszüntetése | Nem | disableMetricsCollection: igaz vagy hamis |