Adatok másolása eszköz a Azure Data Factory és a Synapse Analytics szolgáltatásban

Vonatkozik: Azure Data Factory Azure Synapse Analytics

Tipp.

Data Factory a Microsoft Fabric a Azure Data Factory következő generációja, egyszerűbb architektúrával, beépített AI-vel és új funkciókkal. Ha még nem ismerkedik az adatintegrációval, kezdje a Fabric Data Factoryvel. A meglévő ADF-számítási feladatok frissíthetnek Fabricra, hogy hozzáférjenek az adat tudomány, a valós idejű elemzés és a jelentéskészítés új képességeihez.

Az Adatok másolása eszköz megkönnyíti és optimalizálja az adatok data lake-be való betöltésének folyamatát, ami általában egy végpontok közötti adatintegrációs forgatókönyv első lépése. Időt takarít meg, különösen akkor, ha a szolgáltatással először használ adatokat egy adatforrásból. Az eszköz használatának néhány előnye:

  • Az Adatok másolása eszköz használatakor nincs szükség a társított szolgáltatások, adathalmazok, folyamatok, tevékenységek és eseményindítók szolgáltatásdefinícióinak megértésére.
  • Az Adatok másolása eszköz intuitív módon tölt be adatokat egy adattóba. Az eszköz automatikusan létrehozza az összes szükséges erőforrást, hogy adatokat másoljon a kijelölt forrásadattárból a kijelölt cél/fogadó adattárba.
  • Az Adatok másolása eszköz segít ellenőrizni azokat az adatokat, amelyeket a létrehozáskor betöltenek, ami segít elkerülni az esetleges hibákat az elején.
  • Ha összetett üzleti logikát kell implementálnia az adatok data lake-be való betöltéséhez, akkor is szerkesztheti az Adatok másolása eszköz által létrehozott erőforrásokat a felhasználói felületen végzett tevékenységenkénti létrehozással.

Az alábbi táblázat útmutatást nyújt az Adatok másolása eszköz és a felhasználói felületen történő tevékenységenkénti létrehozás közötti választáshoz.

Adatok másolása eszköz Tevékenységenként (Copy activity) történő szerzői műveletek
Egyszerűen hozhat létre adatbetöltési feladatot entitások (társított szolgáltatások, adathalmazok, folyamatok stb.) megismerése nélkül. Összetett és rugalmas logikát szeretne implementálni az adatok tóba való betöltéséhez.
Nagy mennyiségű adatösszetevőt szeretne gyorsan betölteni egy adattóba. Azt szeretné, hogy a Copy tevékenységet láncolja össze olyan további tevékenységekkel, amelyek az adatok megtisztítására vagy feldolgozására irányulnak.

Az Adatok másolása eszköz elindításához válassza a Ingest csempét a Data Factory kezdőlapján vagy Synapse Studio felhasználói felületén.

A másolási adateszköz elindítása után kétféle feladattípus jelenik meg: az egyik a beépített másolási feladat , a másik pedig a metaadatalapú másolási feladat. A beépített másolási feladat öt percen belül létrehoz egy folyamatot az adatok replikálásához az entitások megismerése nélkül. A metaadatalapú másolási feladat megkönnyíti a paraméteres folyamatok és a külső vezérlőtábla létrehozását, hogy nagy mennyiségű objektumot (például több ezer táblát) nagy léptékben lehessen másolni. További részleteket a metaadat-alapú másolási adatokban tekinthet meg.

Intuitív folyamat adatok adattóba való betöltéséhez

Ez az eszköz lehetővé teszi az adatok egyszerű áthelyezését számos forrásból a célhelyekre percek alatt, intuitív folyamattal:

  1. Konfigurálja a forrás beállításait.

  2. Konfigurálja a célhely beállításait.

  3. Konfigurálja a másolási művelet speciális beállításait , például az oszlopleképezést, a teljesítménybeállításokat és a hibatűrési beállításokat.

  4. Adja meg az adatbetöltési feladat ütemezését.

  5. Tekintse át a létrehozandó entitások összegzését .

  6. Szerkessze a folyamatot a másolási tevékenység beállításainak szükség szerinti frissítéséhez.

    Az eszköz a big data szem előtt tartásával lett megtervezve, és támogatja a különböző adat- és objektumtípusokat. Segítségével több száz mappát, fájlt vagy táblát helyezhet át. Az eszköz támogatja az automatikus adatelőnézetet, a sémarögzítést és az automatikus leképezést, valamint az adatszűrést is.

Adatok másolása eszköz

Automatikus adatelőnézet

Megtekintheti az adatok egy részét a kijelölt forrásadattárból, így ellenőrizheti a másolt adatokat. Ha a forrásadatok szövegfájlban találhatóak, az Adatok másolása eszköz elemzi a szövegfájlt, hogy automatikusan észlelje a sor- és oszlophatárolókat, valamint a sémát.

Fájlbeállítások

Az észlelés után válassza az Előzetes verziójú adatok lehetőséget:

Észlelt fájlbeállítások és előzetes verzió

Sémarögzítés és automatikus leképezés

Előfordulhat, hogy az adatforrás sémája sok esetben nem azonos az adatcél sémával. Ebben a forgatókönyvben a forrásséma oszlopait a célséma oszlopaihoz kell rendelnie.

Az Adatok másolása eszköz figyeli és megtanulja a viselkedését, amikor oszlopokat térképez le a forrás- és céltárolók között. Miután kiválasztott egy vagy néhány oszlopot a forrásadattárból, és megfelelteti őket a célsémához, az Adatok másolása eszköz elkezdi elemezni a mindkét oldalról kiválasztott oszloppárok mintáját. Ezután ugyanezt a mintát alkalmazza a többi oszlopra is. Ezért láthatja, hogy az összes oszlop megfeleltetve lett a célhelyre a kívánt módon, néhány kattintás után. Ha nem elégedett az Adatok másolása eszköz által biztosított oszlopleképezéssel, figyelmen kívül hagyhatja, és folytathatja az oszlopok manuális leképezését. Közben az Adatok másolása eszköz folyamatosan tanulja és frissíti a mintát, és végül eléri a megfelelő mintát az elérni kívánt oszlopleképezéshez.

Feljegyzés

Ha adatokat másol SQL Server vagy Azure SQL Database Azure Synapse Analytics, ha a tábla nem létezik a céltárolóban, az Adatok másolása eszköz a forrásséma használatával automatikusan támogatja a tábla létrehozását.

Adatok szűrése

A forrásadatok szűrésével csak azokat az adatokat választhatja ki, amelyeket át kell másolni a fogadó adattárba. A szűrés csökkenti a fogadó adattárba másolandó adatok mennyiségét, és ezáltal növeli a másolási művelet átviteli sebességét. Az Adatok másolása eszköz rugalmas módot biztosít a relációs adatbázisok adatainak szűrésére az SQL-lekérdezési nyelv vagy a Azure blobmappában lévő fájlok használatával.

Adatok szűrése egy adatbázisban

Az alábbi képernyőképen egy SQL-lekérdezés látható az adatok szűréséhez.

Adatok szűrése egy adatbázisban

Azure blob tárolóban található adatok szűrése

A mappa elérési útján változók használatával adatokat másolhat egy mappából. A támogatott változók a következők: {year}, {month}, {day}, {hour} és {minute}. Például: inputfolder/{year}/{month}/{day}.

Tegyük fel, hogy a bemeneti mappák a következő formátumban vannak:

2016/03/01/01
2016/03/01/02
2016/03/01/03
...

Válassza a Fájl vagy mappaTallózás gombját, keresse meg az egyik mappát (például 2016-03-01-02>>>), majd válassza a Kiválasztás lehetőséget. A következőnek kellene megjelennie a szövegmezőben: 2016/03/01/02.

Ezután cserélje le 2016 a {year}, 03 a {month}, 01 a {day}, és 02 a {hour}, majd nyomja le a Tab billentyűt. Ha a Növekményes betöltés: időparticionált mappa/fájlnevek opciót választja a Fájlbetöltés viselkedése szakaszban, és a Tulajdonságok lapon az Ütemezés vagy a Tumbling window lehetőséget választja, a legördülő listákban meg kell jelennie a formátum kiválasztásának lehetőségeinek ezekhez a négy változóhoz:

Fájl vagy mappa szűrése

Az Adatok másolása eszköz olyan kifejezéseket, függvényeket és rendszerváltozókat tartalmazó paramétereket hoz létre, amelyek a folyamat létrehozásakor {year}, {month}, {day}, {hour} és {minute} jelölésére használhatók.

Ütemezési beállítások

A másolási műveletet egyszer vagy ütemezés szerint (óránként, naponta stb.) futtathatja. Ezek a lehetőségek különböző környezetek összekötőihez használhatók, beleértve a helyszíni, a felhőbeli és a helyi asztalt is.

Az egyszeri másolási művelet csak egyszer teszi lehetővé a forrásból a célhelyre történő adatáthelyezést. Bármilyen méretű és bármilyen támogatott formátumú adatokra vonatkozik. Az ütemezett másolással adatokat másolhat egy megadott ismétlődésről. Az ütemezett másolat konfigurálásához gazdag beállításokat (például újrapróbálkozás, időtúllépés és riasztások) használhat.

Ütemezési beállítások

Próbálja ki az alábbi oktatóanyagokat, amelyek az Adatok másolása eszközt használják: