Megosztás a következőn keresztül:


Forrásátalakítás az adatfolyamok leképezésében

Vonatkozik: Azure Data Factory Azure Synapse Analytics

Tipp.

Data Factory a Microsoft Fabric a Azure Data Factory következő generációja, egyszerűbb architektúrával, beépített AI-vel és új funkciókkal. Ha még nem ismerkedik az adatintegrációval, kezdje a Fabric Data Factoryvel. A meglévő ADF-számítási feladatok frissíthetők Fabric használatával, hogy elérjék az adatkutatás, a valós idejű elemzés és a jelentéskészítés új képességeit.

Az adatfolyamok Azure Data Factory folyamatokban és Azure Synapse Analytics folyamatokban is elérhetők. Ez a cikk az adatfolyamok leképezésére vonatkozik. Ha még nem ismerkedik az átalakításokkal, tekintse meg az Adatok átalakítása leképezési adatfolyamokkal című bevezető cikket.

A forrásátalakítás konfigurálja az adatforrást az adatfolyamhoz. Adatfolyamok tervezésekor az első lépés mindig egy forrásátalakítás konfigurálása. Forrás hozzáadásához válassza a Forrás hozzáadása mezőt az adatfolyam-vásznon.

Minden adatfolyamhoz legalább egy forrásátalakítás szükséges, de annyi forrást adhat hozzá, amennyi szükséges az adatátalakítások elvégzéséhez. Ezeket a forrásokat összekapcsolhatja egy egybeillesztéssel, kereséssel vagy összekapcsolási átalakítással.

Minden forrásátalakítás pontosan egy adatkészlethez vagy társított szolgáltatáshoz van társítva. Az adatkészlet határozza meg azoknak az adatoknak az alakját és helyét, amelyeket írni vagy olvasni szeretne. Ha fájlalapú adatkészletet használ, a forrásban helyettesítő karakterek és fájllisták használatával egyszerre több fájllal is dolgozhat.

Beágyazott adatkészletek

A forrásátalakítás létrehozásakor elsőként azt kell eldöntenie, hogy a forrásadatok egy adathalmaz-objektumon belül vagy a forrásátalakításon belül vannak-e definiálva. A legtöbb formátum csak az egyikben vagy a másikban érhető el. Ha tudni szeretné, hogyan használhat egy adott összekötőt, tekintse meg a megfelelő összekötő dokumentumot.

Ha a formátumok beágyazott és adathalmaz-objektumokban is támogatottak, mindkettőnek vannak előnyei. Az adathalmaz-objektumok olyan újrafelhasználható entitások, amelyek más adatfolyamokban és tevékenységekben, például a Másolásban is használhatók. Ezek az újrahasználható entitások különösen hasznosak, ha megerősített sémát használ. Az adathalmazok nem a Sparkban alapulnak. Időnként előfordulhat, hogy felül kell bírálnia bizonyos beállításokat vagy sémakivetítést a forrás átalakítása során.

A beágyazott adatkészletek rugalmas sémák, egyszeri forráspéldányok vagy paraméteres források használata esetén ajánlottak. Ha a forrás erősen paraméterezett, a beágyazott adatkészletek lehetővé teszik, hogy ne hozzon létre "dummy" objektumot. A beágyazott adathalmazok a Sparkban alapulnak, és tulajdonságaik natívak az adatfolyamban.

Beágyazott adatkészlet használatához válassza ki a kívánt formátumot a Forrástípus-választóban . Forrásadatkészlet kiválasztása helyett válassza ki azt a társított szolgáltatást, amelyhez csatlakozni szeretne.

Sémabeállítások

Mivel egy beágyazott adatkészlet az adatfolyamon belül van definiálva, nincs definiált séma a beágyazott adatkészlethez társítva. A Vetítés lapon importálhatja a forrásadatsémát, és a sémát forrásvetítésként tárolhatja. Ezen a lapon talál egy "Sémabeállítások" gombot, amely lehetővé teszi az ADF sémafelderítési szolgáltatásának viselkedésének meghatározását.

  • Tervezett séma használata: Ez a beállítás akkor hasznos, ha nagy számú forrásfájllal rendelkezik, amelyeket az ADF vizsgál forrásként. Az ADF alapértelmezett viselkedése az összes forrásfájl sémájának felderítése. Ha azonban már van előre definiált vetülete a forrásátalakításban, ezt igaz értékre állíthatja, és az ADF kihagyja az összes séma automatikus felderítését. Ha ez a beállítás be van kapcsolva, a forrásátalakítás sokkal gyorsabban tudja beolvasni az összes fájlt, és minden fájlra alkalmazza az előre definiált sémát.
  • Sémaeltolódás engedélyezése: Kapcsolja be a sémaeltolódást, hogy az adatfolyam lehetővé tegye a forrássémában még nem definiált új oszlopokat.
  • Séma érvényesítése: Ha ezt a beállítást választja, az adatfolyam meghiúsul, ha a kivetítésben definiált bármely oszlop és típus nem felel meg a forrásadatok felderített sémájának.
  • Sodródott oszloptípusokból következtethet: Ha az ADF új sodródott oszlopokat azonosít, az új oszlopok az ADF automatikus típuskövetkeztetésével a megfelelő adattípusba kerülnek.

Képernyőkép, amelyen az 'Inline' van kijelölve.

Munkaterület adatbázisa (csak Synapse-munkaterületek)

Azure Synapse munkaterületeken egy további lehetőség is elérhető a Workspace DB nevű adatfolyam-forrás átalakításokban. Ez lehetővé teszi, hogy közvetlenül válasszon egy tetszőleges típusú munkaterület-adatbázist forrásadatként anélkül, hogy további társított szolgáltatásokat vagy adatkészleteket kellene megkövetelnie. A Azure Synapse adatbázissablonok által létrehozott adatbázisok a Munkaterület-adatbázis kiválasztásakor is elérhetők.

Képernyőkép a kiválasztott munkaterületdb-ről.

Támogatott forrástípusok

Az adatok térképezése az adatok kinyerési, betöltési és átalakítási (ELT) megközelítését követi, és az összes előfeldolgozási adatkészlettel működik, amely az Azure-ban található. Jelenleg a következő adathalmazok használhatók forrásátalakításkor.

Összekötő Formátum Adatkészlet/beágyazott
Amazon S3 Avro
Tagolt szöveg
Delta
Excel
JSON
ORK
Parketta
XML
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
Appfigures (előzetes verzió) -/✓
Ászana (előzetes verzió) -/✓
Azure Blob Storage Avro
Tagolt szöveg
Delta
Excel
JSON
ORK
Parketta
XML
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
Azure Cosmos DB a NoSQL-hoz ✓/-
Azure Data Lake Storage Gen1 Avro
Tagolt szöveg
Excel
JSON
ORK
Parketta
XML
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
Azure Data Lake Storage Gen2 Avro
Common Data Model
Tagolt szöveg
Delta
Excel
JSON
ORK
Parketta
XML
✓/✓
-/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
Azure Database for MySQL ✓/✓
Azure Database for PostgreSQL ✓/✓
Azure Data Explorer ✓/✓
Azure SQL Database ✓/✓
Azure SQL Managed Instance ✓/✓
Azure Synapse Analytics ✓/✓
data.world (előzetes verzió) -/✓
Dataverse ✓/✓
Dynamics 365 ✓/✓
Dynamics CRM ✓/✓
Google Táblázatok (előzetes verzió) -/✓
Hive -/✓
Quickbase (előzetes) -/✓
SFTP Avro
Tagolt szöveg
Excel
JSON
ORK
Parketta
XML
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
Smartsheet (előzetes verzió) -/✓
Snowflake ✓/✓
SQL Server ✓/✓
REST ✓/✓
TeamDesk (előzetes verzió) -/✓
Twilio (előzetes verzió) -/✓
Zendesk (előzetes verzió) -/✓

Az összekötőkre vonatkozó beállítások a Forrásbeállítások lapon találhatók. Az ezen beállításokra vonatkozó információk és adatfolyam-szkriptek az összekötő dokumentációjában találhatók.

A Azure Data Factory és a Synapse-folyamatok több mint 90 natív összekötőhöz férnek hozzá. Ha más forrásokból származó adatokat szeretne belefoglalni az adatfolyamba, a Másolási tevékenység használatával töltse be az adatokat az egyik támogatott átmeneti területre.

Forrásbeállítások

Miután hozzáadott egy forrást, konfiguráljon a Forrásbeállítások lapon. Itt választhatja ki, vagy hozhat létre egy adathalmazt, amelyre a forrás mutat. Az adatok sémáját és mintavételezési beállításait is kiválaszthatja.

Az adathalmaz paramétereinek fejlesztési értékei a hibakeresési beállításokban konfigurálhatók. (A hibakeresési módot be kell kapcsolni.)

Képernyőkép a Forrásbeállítások lapról.

Kimeneti stream neve: A forrásátalakítás neve.

Forrás típusa: Adja meg, hogy beágyazott adathalmazt vagy meglévő adathalmaz-objektumot szeretne-e használni.

Kapcsolat tesztelése: Annak tesztelése, hogy az adatfolyam Spark-szolgáltatása sikeresen tud-e csatlakozni a forrásadatkészletben használt társított szolgáltatáshoz. A hibakeresési módnak be kell kapcsolnia ezt a funkciót ahhoz, hogy engedélyezve legyen.

Sémaeltolódás: A sémaeltolódás az a képesség, hogy a szolgáltatás natív módon kezelje az adatfolyamok rugalmas sémáit anélkül, hogy explicit módon kellene meghatároznia az oszlopmódosításokat.

  • Jelölje be a Sémaeltolódás engedélyezése jelölőnégyzetet, ha a forrásoszlopok gyakran változnak. Ez a beállítás lehetővé teszi, hogy az összes bejövő forrásmező átfolyjon a fogadóba irányuló átalakításokon.

  • Az eltolódott oszloptípusok kijelölése arra utasítja a szolgáltatást, hogy észlelje és definiálja az egyes felderített új oszlopok adattípusait. Ha ez a funkció ki van kapcsolva, az összes eltérített oszlop string típusú.

Séma érvényesítése: Ha a séma ellenőrzése ki van jelölve, az adatfolyam nem fut, ha a bejövő forrásadatok nem felelnek meg az adathalmaz megadott sémájának.

Sorok számának kihagyása: A Sorszám kihagyása mező azt határozza meg, hogy hány sort kell figyelmen kívül hagyni az adathalmaz elején.

Mintavételezés: A mintavételezés engedélyezése a forrásból származó sorok számának korlátozásához. Ezt a beállítást akkor használja, ha hibakeresési célokból teszteli vagy mintaadatokat használ a forrásból. Nagyon hasznos, ha az adatfolyamokat hibakeresési módban hajtja végre egy folyamatláncban.

A forrás helyes konfigurálásának ellenőrzéséhez kapcsolja be a hibakeresési módot, és kérje le az adat előnézetét. További információ: Hibakeresési mód.

Feljegyzés

Ha a hibakeresési mód be van kapcsolva, a hibakeresési beállítások sorkorlát-konfigurációja felülírja a mintavételezési beállítást a forrásban az adatelőnézet során.

Forrásbeállítások

A Forrásbeállítások lap az összekötőre és a választott formátumra vonatkozó beállításokat tartalmazza. További információkért és példákért tekintse meg a vonatkozó összekötő dokumentációját. Ide tartoznak például az azt támogató adatforrások elkülönítési szintje (például a helyszíni SQL Serverek, Azure SQL Adatbázisok és Azure SQL felügyelt példányok) és más adatforrásspecifikus beállítások.

Vetület

Az adathalmazok sémáihoz hasonlóan a forrásban lévő kivetítés is meghatározza a forrásadatok adatoszlopait, típusait és formátumait. A legtöbb adathalmaztípus, például az SQL és a Parquet esetében a forrásban lévő kivetítés úgy van rögzítve, hogy az tükrözze az adathalmazban definiált sémát, amely a forrástól függően változhat. Ha a forrásfájlok nincsenek erősen típusosan definiálva (például lapos .csv fájlok, szemben a Parquet fájlokkal), a forrás átalakításának egyes mezőihez megadhatja az adattípusokat. Az alábbi képen egy példavetítés látható:

Képernyőkép a Vetítés lap beállításairól.

Ha a szövegfájl nem rendelkezik definiált sémával, válassza az Adattípus észlelése lehetőséget, hogy a szolgáltatás mintákat használjon, és az adattípusokat következtethesse. Az alapértelmezett adatformátumok automatikus megadásához válassza az Alapértelmezett formátum megadása lehetőséget.

A séma visszaállítása visszaállítja a vetítést a hivatkozott adatkészletben definiáltra.

A séma felülírásával módosíthatja a forrásként megadott előrejelzett adattípusokat, felülírva a séma által definiált adattípusokat. Másik lehetőségként módosíthatja az oszlop adattípusát egy alsóbb rétegbeli származtatott oszlopátalakításban. Válasszon átalakítást az oszlopnevek módosításához.

Séma importálása

Kattintson a Séma importálása gombra a Vetítés lapon, ha aktív hibakeresési fürtöt szeretne használni sémavetítés létrehozásához. Minden forrástípusban elérhető. A séma importálása felülírja az adathalmazban definiált vetületet. Az adathalmaz-objektum nem változik.

A séma importálása olyan adathalmazokban hasznos, mint az Avro és Azure Cosmos DB, amelyek olyan összetett adatstruktúrákat támogatnak, amelyek nem igényelnek sémadefiníciókat az adathalmazban. Beágyazott adathalmazok esetén a séma importálása az egyetlen módja annak, hogy sémaeltolódás nélkül hivatkozzon az oszlop metaadataira.

A forrásátalakítás optimalizálása

Az Optimalizálás lap lehetővé teszi a partícióadatok szerkesztését minden átalakítási lépésnél. A legtöbb esetben a jelenlegi particionálás használata optimalizálja a forrás ideális particionálási struktúráját.

Ha Azure SQL Database forrásból olvas, az egyéni Source particionálás valószínűleg az adatokat olvassa a leggyorsabban. A szolgáltatás nagy lekérdezéseket olvas be úgy, hogy párhuzamosan létesít kapcsolatot az adatbázissal. Ez a forrásparticionálás elvégezhető egy oszlopon vagy egy lekérdezés használatával.

Képernyőkép a forráspartíció beállításairól.

A leképezési adatfolyamon belüli optimalizálásról további információt az Optimalizálás lapon talál.

Kezdje el létrehozni az adatfolyamot egy származtatott oszlopos átalakítással és egy kiválasztási átalakítással.