Megosztás a következőn keresztül:


Adattárház konfigurálása másolási tevékenységben

Ez a cikk azt ismerteti, hogyan használhatja a másolási tevékenységet az adatfolyamban adatok adattárházból és adattárházba való másolásához.

Támogatott konfiguráció

A másolási tevékenység alatt lévő lapok konfigurációjához tekintse meg a következő szakaszokat.

Általános

Az Általános lap konfigurációjához lépjen az Általános lapra.

Forrás

A másolási tevékenységben az adattárház a következő tulajdonságokat támogatja forrásként.

Képernyőkép a forráslapról és a tulajdonságok listájáról.

A következő tulajdonságok szükségesek:

  • Adattár típusa: Munkaterület kiválasztása.

  • Munkaterület adattártípusa: Válassza ki az Adattárházat az adattártípus-listából.

  • Adattárház: Válasszon ki egy meglévő adattárházat a munkaterületről.

  • Lekérdezés használata: Tábla, lekérdezés vagy tárolt eljárás kiválasztása.

    • Ha a Táblázat lehetőséget választja, válasszon ki egy meglévő táblát a táblázatlistából, vagy adjon meg manuálisan egy táblanevet a Szerkesztés mező kiválasztásával.

      Képernyőkép a tábla használati lekérdezéséről.

    • Ha a Lekérdezés lehetőséget választja, az egyéni SQL-lekérdezésszerkesztővel írjon egy SQL-lekérdezést, amely lekéri a forrásadatokat.

      Képernyőkép a lekérdezés használati lekérdezéséről.

    • Ha a Tárolt eljárást választja, válasszon ki egy meglévő tárolt eljárást a legördülő listából, vagy a Szerkesztés mező kiválasztásával adjon meg egy tárolt eljárásnevet forrásként.

      Képernyőkép a tárolt eljárás használati lekérdezéséről.

A Speciális területen a következő mezőket adhatja meg:

  • Lekérdezési időtúllépés (perc):: Időtúllépés a lekérdezési parancsok végrehajtásához, alapértelmezés szerint 120 perc. Ha ez a tulajdonság be van állítva, az engedélyezett értékek időbélyeg formátumban vannak, például "02:00:00" (120 perc).

  • Elkülönítési szint: Adja meg az SQL-forrás tranzakciózárolási viselkedését.

  • Partíciós beállítás: Adja meg a Data Warehouse-ból való adatok betöltéséhez használt adatparticionálási beállításokat. Válassza a Nincs vagy a Dinamikus tartomány lehetőséget.

    Ha a dinamikus tartományt választja, a tartománypartíciós paraméterre(?AdfDynamicRangePartitionCondition) van szükség, ha a lekérdezés párhuzamos engedélyezve van. Minta lekérdezés: SELECT * FROM <TableName> WHERE ?AdfDynamicRangePartitionCondition.

    Képernyőkép a dinamikus tartományról.

    • Partícióoszlop neve: Adja meg a forrásoszlop nevét egész számban vagy dátum/dátum/idő típusban (int, , smallint, bigint, date, smalldatetime, datetime, , datetime2) datetimeoffset, amelyet a tartomány particionálása használ a párhuzamos másoláshoz. Ha nincs megadva, a rendszer automatikusan észleli a tábla indexét vagy elsődleges kulcsát, és partícióoszlopként használja.
    • Partíció felső határa: A partícióoszlop maximális értéke a partíciótartomány felosztásához. Ez az érték határozza meg a partíciós léptetést, nem pedig a tábla sorainak szűrésére. A tábla vagy a lekérdezés eredményének összes sora particionálásra és másolásra kerül.
    • Partíció alsó határa: A partíciótartományok felosztásához használt partícióoszlop minimális értéke. Ez az érték határozza meg a partíciós léptetést, nem pedig a tábla sorainak szűrésére. A tábla vagy a lekérdezés eredményének összes sora particionálásra és másolásra kerül.
  • További oszlopok: További adatoszlopok hozzáadása a forrásfájlok relatív elérési útjának vagy statikus értékének tárolásához. A kifejezés az utóbbi esetében támogatott.

    További oszlopokat ábrázoló képernyőkép.

Cél

A másolási tevékenységben az adattárház célként az alábbi tulajdonságokat támogatja.

Képernyőkép a céllapról és a tulajdonságok listájáról.

A következő tulajdonságok szükségesek:

  • Adattár típusa: Munkaterület kiválasztása.
  • Munkaterület adattártípusa: Válassza ki az Adattárházat az adattártípus-listából.
  • Adattárház: Válasszon ki egy meglévő adattárházat a munkaterületről.
  • Táblázat: Válasszon ki egy meglévő táblát a táblázatlistából, vagy adjon meg egy táblanevet célként.

A Speciális területen a következő mezőket adhatja meg:

  • Másolási parancs beállításai: A másolási parancs tulajdonságainak megadása.

    Képernyőkép a másolási parancs beállításainak alapértelmezett értékeiről.

  • Táblázatbeállítások: Adja meg, hogy automatikusan létre kívánja-e hozni a céltáblát, ha a forrásséma alapján nincs ilyen. Választhatja a Nincs vagy az Automatikus létrehozás táblát.

  • Szkript előzetes másolása: Adjon meg egy futtatandó SQL-lekérdezést, mielőtt adatokat írna az Adattárházba minden futtatás során. Ezzel a tulajdonságkal törölheti az előre betöltött adatokat.

  • Köteg időtúllépésének írása: A köteg beszúrási műveletének várakozási ideje, mielőtt túllépi az időkorlátot. Az engedélyezett értékek időbélyeg formátumúak. Az alapértelmezett érték a "00:30:00" (30 perc).

  • Teljesítménymetrika-elemzés letiltása: A szolgáltatás a másolási teljesítmény optimalizálásához és a javaslatokhoz gyűjt metrikákat. Ha ez a viselkedés érdekli, kapcsolja ki ezt a funkciót.

Közvetlen másolat

A COPY utasítás az adatok Warehouse-táblákba való betöltésének elsődleges módja. A Data Warehouse COPY parancs közvetlenül támogatja az Azure Blob Storage-t és az Azure Data Lake Storage Gen2-t forrásadattárként. Ha a forrásadatok megfelelnek az ebben a szakaszban leírt feltételeknek, a COPY paranccsal másolja át közvetlenül a forrásadattárból az Adattárházba.

  1. A forrásadatok és formátum a következő típusokat és hitelesítési módszereket tartalmazzák:

    Támogatott forrásadattár-típus Támogatott formátum Támogatott forráshitelesítés típusa
    Azure Blob Storage Tagolt szöveg
    Parketta
    Névtelen hitelesítés
    Fiókkulcs-hitelesítés
    Közös hozzáférésű jogosultságkód hitelesítése
    Azure Data Lake Storage Gen2 Tagolt szöveg
    Parketta
    Fiókkulcs-hitelesítés
    Közös hozzáférésű jogosultságkód hitelesítése
  2. A következő formátumbeállítások állíthatók be:

    1. Parquet esetén: A tömörítés típusa Lehet None, snappy vagy gzip.
    2. Elválasztószöveg esetén:
      1. Sorelválasztó: Ha a tagolt szöveget közvetlen COPY paranccsal másolja az Adattárházba, explicit módon adja meg a sorelválasztót (\r; \n; vagy \r\n). Az alapértelmezett érték (\r, \n vagy \r\n) csak akkor működik, ha a forrásfájl sorelválasztója \r\n. Ellenkező esetben engedélyezze az előkészítést a forgatókönyvhöz.
      2. A null érték marad alapértelmezettként, vagy üres sztring ("") értékre van állítva.
      3. A kódolás alapértelmezettként marad, vagy UTF-8 vagy UTF-16 értékre van állítva.
      4. A sorszám kihagyása alapértelmezés szerint marad, vagy 0 értékre van állítva.
      5. A tömörítés típusa lehet Nincs vagy gzip.
  3. Ha a forrás egy mappa, jelölje be a Rekurzívan jelölőnégyzetet.

  4. Nincs megadva a kezdő időpont (UTC) és a befejezési idő (UTC) a szűrőben a legutóbbi módosítás szerint, az előtag, a partíciófelderítés engedélyezése és a további oszlopok .

Ebből a cikkből megtudhatja, hogyan lehet adatokat beszedni az adattárházba a COPY paranccsal.

Ha a forrásadattárat és a formátumot eredetileg nem támogatja a COPY parancs, használja inkább a szakaszos másolatot a COPY parancs funkcióval. Automatikusan COPY paranccsal kompatibilis formátumba alakítja át az adatokat, majd meghív egy COPY parancsot az adatok Data Warehouse-ba való betöltéséhez.

Szakaszos másolat

Ha a forrásadatok natív módon nem kompatibilisek a COPY paranccsal, engedélyezze az adatok átmeneti átmeneti tárolón keresztüli másolását. Ebben az esetben a szolgáltatás automatikusan átalakítja az adatokat úgy, hogy megfeleljenek a COPY parancs adatformátum-követelményeinek. Ezután meghívja a COPY parancsot az adatok Data Warehouse-ba való betöltéséhez. Végül megtisztítja az ideiglenes adatokat a tárból.

A szakaszos másolás használatához lépjen a Beállítások lapra , és válassza az Előkészítés engedélyezése lehetőséget. A Munkaterület lehetőséget választva automatikusan létrehozott átmeneti tárolót használhat a Hálóban. Külső tárolóként az Azure Blob Storage és az Azure Data Lake Storage Gen2 is támogatott. Először létre kell hoznia egy Azure Blob Storage- vagy Azure Data Lake Storage Gen2-kapcsolatot, majd a legördülő listából válassza ki a kapcsolatot az átmeneti tároló használatához.

Vegye figyelembe, hogy meg kell győződnie arról, hogy az adattárház IP-tartománya megfelelően lett engedélyezve az átmeneti tárolóból.

Hozzárendelés

A Leképezés lap konfigurációjához, ha nem alkalmazza az Adattárházat, és az automatikus létrehozási táblázatot szeretné célként alkalmazni, lépjen a Leképezés gombra.

Ha az Adattárházat automatikus létrehozási táblával alkalmazza célként, a leképezési konfiguráció kivételével szerkesztheti a céloszlopok típusát. Az Importálási sémák kiválasztása után megadhatja az oszloptípust a célhelyen.

Például a forrás azonosító oszlopának típusa int, és a céloszlopra való leképezéskor módosíthatja lebegőpontos típusra.

Képernyőkép a céloszlop típusának leképezéséről.

Beállítások

A Beállítások lap konfigurációjához válassza a Beállítások lehetőséget.

Táblázat összefoglalása

Az alábbi táblázatok további információkat tartalmaznak az adattárházban végzett másolási tevékenységről.

Forrásadatok

Név Leírás Érték Szükséges JSON-szkripttulajdonság
Adattár típusa Az adattár típusa. Munkaterület Igen /
Munkaterület adattártípusa A munkaterület adattártípusának kiválasztásához használt szakasz. Adattárház Igen típus
Adattárház A használni kívánt adattárház. <az adattárház> Igen endpoint
artifactId
Lekérdezés használata Az adatraktárból való adatolvasás módja. •Táblázatok
•Lekérdezés
• Tárolt eljárás
Nem (a ->source) alatt typeProperties
• typeProperties:
 schema
 table
• sqlReaderQuery
• sqlReaderStoredProcedureName
Lekérdezés időtúllépése (perc) Időtúllépés a lekérdezési parancsok végrehajtásához, alapértelmezés szerint 120 perc. Ha ez a tulajdonság be van állítva, az engedélyezett értékek időbélyeg formátumban vannak, például "02:00:00" (120 perc). időtartomány Nem queryTimeout
Elkülönítési szint A forrás tranzakciózárolási viselkedése. •Egyik sem
•Pillanatfelvétel
Nem isolationLevel
Partíciós beállítás Az adatraktárból való adatbetöltéshez használt adatparticionálási beállítások. •Egyik sem
• Dinamikus tartomány
Nem partitionOption
Partícióoszlop neve A forrásoszlop neve egész számban vagy dátum/dátum/idő típusban (int, , smallint, bigint, datesmalldatetime, datetime, , datetime2) datetimeoffset, amelyet a tartomány particionálása használ a párhuzamos másoláshoz. Ha nincs megadva, a rendszer automatikusan észleli a tábla indexét vagy elsődleges kulcsát, és partícióoszlopként használja. <partícióoszlop neve> Nem partitionColumnName
Partíció felső határa A partíciótartományok felosztásához használt partícióoszlop maximális értéke. Ez az érték határozza meg a partíciós léptetést, nem pedig a tábla sorainak szűrésére. A tábla vagy a lekérdezés eredményének összes sora particionálásra és másolásra kerül. <partíció felső határa> Nem partitionUpperBound
Partíció alsó határa A partíciótartományok felosztásához használt partícióoszlop minimális értéke. Ez az érték határozza meg a partíciós léptetést, nem pedig a tábla sorainak szűrésére. A tábla vagy a lekérdezés eredményének összes sora particionálásra és másolásra kerül. <partíció alsó határa> Nem partitionLowerBound
További oszlopok Adjon hozzá további adatoszlopokat a forrásfájlok relatív elérési útjának vagy statikus értékének tárolásához. •Név
•Érték
Nem továbbicolumnok:
•név
•érték

Céladatok

Név Leírás Érték Szükséges JSON-szkripttulajdonság
Adattár típusa Az adattár típusa. Munkaterület Igen /
Munkaterület adattártípusa A munkaterület adattártípusának kiválasztásához használt szakasz. Adattárház Igen típus
Adattárház A használni kívánt adattárház. <az adattárház> Igen endpoint
artifactId
Tábla Az adatok írásához használt céltábla. <a céltábla neve> Igen séma
table
Parancsbeállítások másolása A másolási parancs tulajdonságbeállításai. Az alapértelmezett értékbeállításokat tartalmazza. Alapértelmezett érték:
•Oszlop
•Érték
Nem copyCommandSettings:
defaultValues:
• columnName
• defaultValue
Táblázat lehetőség Azt határozza meg, hogy automatikusan létre kívánja-e hozni a céltáblát, ha a forrásséma alapján egyik sem létezik. •Egyik sem
• Táblázat automatikus létrehozása
Nem tableOption:

• autoCreate
Szkript előzetes másolása Sql-lekérdezést kell futtatni, mielőtt adatokat írna a Data Warehouse-ba minden futtatás során. Ezzel a tulajdonságkal törölheti az előre betöltött adatokat. <szkript előzetes másolása> Nem preCopyScript
Köteg időtúllépésének írása A köteg beszúrási műveletének várakozási ideje, mielőtt túllépi az időkorlátot. Az engedélyezett értékek időbélyeg formátumúak. Az alapértelmezett érték a "00:30:00" (30 perc). időtartomány Nem writeBatchTimeout
Teljesítménymetrikák elemzésének letiltása A szolgáltatás metrikákat gyűjt a másolási teljesítmény optimalizálásához és a javaslatokhoz, amelyek további főadatbázis-hozzáférést vezetnek be. kijelölés vagy a kijelölés megszüntetése Nem disableMetricsCollection:
igaz vagy hamis