Azure Data Factory és Azure Synapse Analytics adatfolyam tevékenysége

Vonatkozik: Azure Data Factory Azure Synapse Analytics

Tipp.

Data Factory a Microsoft Fabric a Azure Data Factory következő generációja, egyszerűbb architektúrával, beépített AI-vel és új funkciókkal. Ha még nem ismerkedik az adatintegrációval, kezdje a Fabric Data Factoryvel. A meglévő ADF-számítási feladatok frissíthetők Fabric használatával, hogy elérjék az adatkutatás, a valós idejű elemzés és a jelentéskészítés új képességeit.

A Adatfolyam tevékenység használatával átalakíthatja és áthelyezheti az adatokat leképezési adatfolyamokkal. Ha még új az adatfolyamok területén, tekintse meg az Adattérkép adatfolyamának áttekintése

Adatfolyam tevékenység létrehozása felhasználói felülettel

Ha Adatfolyam tevékenységet szeretne használni egy folyamatban, hajtsa végre a következő lépéseket:

  1. Keresse meg a Adatfolyam a folyamattevékenységek panelen, és húzzon egy Adatfolyam tevékenységet a folyamatvászonra.

  2. Jelölje ki az új Adatfolyam tevékenységet a vásznon, ha még nincs kijelölve, és a Settings lapot a részletek szerkesztéséhez.

    Megjeleníti az adatfolyam-tevékenység felhasználói felületét.

  3. A checkpoint billentyű az ellenőrzőpont beállítására szolgál, amikor az adatfolyamot a módosított adatrögzítéshez használják. Felülírhatja. Az adatfolyam-tevékenységek a "folyamat + tevékenység neve" helyett GUID értéket használnak ellenőrzőpontkulcsként, hogy mindig nyomon követhessék az ügyfél változáskövetési állapotát, még akkor is, ha vannak átnevezési műveletek. Minden meglévő adatfolyam-tevékenység a régi mintakulcsot használja a visszamenőleges kompatibilitás érdekében. Az új adatfolyam-tevékenység módosítási adatrögzítéssel engedélyezett adatfolyam-erőforrással való közzététele után az ellenőrzőpontkulcs-beállítás az alábbi módon jelenik meg.

    Megjeleníti a Adatfolyam tevékenység felhasználói felületét a checkpoint kulccsal.

  4. Válasszon ki egy meglévő adatfolyamot, vagy hozzon létre egy újat az Új gombbal. A konfiguráció befejezéséhez szükség szerint válasszon más beállításokat.

Szintaxis

{
    "name": "MyDataFlowActivity",
    "type": "ExecuteDataFlow",
    "typeProperties": {
      "dataflow": {
         "referenceName": "MyDataFlow",
         "type": "DataFlowReference"
      },
      "compute": {
         "coreCount": 8,
         "computeType": "General"
      },
      "traceLevel": "Fine",
      "runConcurrently": true,
      "continueOnError": true,      
      "staging": {
          "linkedService": {
              "referenceName": "MyStagingLinkedService",
              "type": "LinkedServiceReference"
          },
          "folderPath": "my-container/my-folder"
      },
      "integrationRuntime": {
          "referenceName": "MyDataFlowIntegrationRuntime",
          "type": "IntegrationRuntimeReference"
      }
}

Típustulajdonságok

Tulajdonság Leírás Megengedett értékek Kötelező
adatfolyam A végrehajtás alatt álló Adatfolyam-ra való hivatkozás DataFlowReference Igen
integrationRuntime Az adatfolyam által futtatott számítási környezet. Ha nincs megadva, a rendszer az automegoldó Azure integrációs futtatókörnyezetet használja. IntegrationRuntimeReference Nem
compute.coreCount A Spark-fürtben használt magok száma. Csak akkor adható meg, ha az Azure automatikus megoldási integrációs futásideje van használatban 8, 16, 32, 48, 80, 144, 272 Nem
compute.computeType A Spark-fürtben használt számítási erőforrás típusa. Csak akkor adható meg, ha az Azure automatikus megoldási integrációs futásideje van használatban Általános Nem
staging.linkedService Ha Azure Synapse Analytics forrást vagy fogadót használ, adja meg a PolyBase-előkészítéshez használt tárfiókot.

Ha az Azure Storage virtuális hálózati szolgáltatásvégponttal van konfigurálva, akkor a "megbízható Microsoft szolgáltatások engedélyezése" beállítással ellátott tárfiókon felügyelt identitáshitelesítést kell használnia. További információért tekintse meg a A virtuális hálózati szolgáltatásvégpontok hatása az Azure Storage használatára. Megismerheti a Azure Blob és Azure Data Lake Storage Gen2 szükséges konfigurációit is.
LinkedServiceReference Csak akkor, ha az adatfolyam olvas vagy ír egy Azure Synapse Analytics munkaterületre.
staging.folderPath Ha Azure Synapse Analytics forrást vagy fogadót használ, a PolyBase-előkészítéshez használt Blob Storage-fiók mappaútvonala Sztring Csak akkor, ha az adatfolyam beolvasás vagy írás céljából az Azure Synapse Analytics-hez kapcsolódik.
nyomkövetési szint Az adatfolyam-tevékenység végrehajtásának naplózási szintjének beállítása Finom, Durva, Nincs Nem

Adatfolyam végrehajtása

Futásidőben dinamikusan méretezze az adatfolyamat feldolgozást

Az alapszám és a számítási típus tulajdonságai dinamikusan állíthatók be, hogy futásidőben a bejövő forrásadatok méretéhez igazodjanak. A forrásadatkészlet-adatok méretének megkereséséhez használjon folyamattevékenységeket, például keresést vagy metaadatok lekérését. Ezután használja a Dinamikus tartalom hozzáadása lehetőséget a Adatfolyam tevékenységtulajdonságokban. Választhat kis, közepes vagy nagy számítási méreteket. Opcionálisan válassza az "Egyéni" lehetőséget, és konfigurálja manuálisan a számítási típusokat és a magok számát.

Dinamikus Adatfolyam

Íme egy rövid oktatóvideó, amely ismerteti ezt a technikát

Adatfolyam integrációs futtatókörnyezet

Válassza ki a Adatfolyam tevékenység végrehajtásához használni kívánt Integration Runtime. A szolgáltatás alapértelmezés szerint az automatikusan feloldott Azure integrációs modult használja négy feldolgozómaggal. Ez az integrációs modul általános célú számítási típussal rendelkezik, és ugyanabban a régióban fut, mint a szolgáltatáspéldány. Az operatív folyamatok esetében kifejezetten ajánlott saját Azure integrációs futtatókörnyezeteket létrehozni, amelyek meghatározott régiókat, számítási típust, magszámokat és TTL-t határoznak meg az adatfolyam-tevékenységek végrehajtásához.

Az általános célú minimális számítási típus 8+8 (összesen 16 virtuális mag) konfigurációval és 10 perces élettartammal (TTL) a legtöbb éles számítási feladatra vonatkozó minimális javaslat. Egy kis TTL beállításával az Azure IR képes fenntartani egy "ready cluster"-t, amely nem jár több percnyi indítási idővel egy "cold cluster" esetében. További információ: Azure integrációs modul.

Azure Integration Runtime

Fontos

A Adatfolyam tevékenységen belüli Integration Runtime választás csak a folyamat indított végrehajtásokra vonatkozik. A folyamat hibakeresése adatfolyamokkal a hibakeresési munkamenetben megadott fürtön fut.

PolyBase

Ha Ön Azure Synapse Analytics rendszert használ célként vagy forrásként, ki kell választania egy előfeldolgozási helyszínt a PolyBase kötegbetöltéshez. A PolyBase lehetővé teszi az adatok tömeges kötegelt betöltését az adatsorok egyenkénti betöltése helyett. A PolyBase drasztikusan csökkenti a betöltési időt az Azure Synapse Analytics-be.

Ellenőrzőpont-kulcs

Az adatfolyam-források változásrögzítési beállításának használatakor az ADF automatikusan fenntartja és kezeli az ellenőrzőpontot. Az alapértelmezett ellenőrzőpontkulcs az adatfolyam nevének és a folyamat nevének kivonata. Ha dinamikus mintát használ a forrástáblákhoz vagy mappákhoz, érdemes lehet felülbírálni ezt a kivonatot, és itt beállíthatja a saját ellenőrzőpont kulcsértékét.

Naplózási szint

Ha nem követeli meg az adatfolyam-tevékenységek minden folyamatvégrehajtását az összes részletes telemetriai napló teljes naplózásához, a naplózási szintet igény szerint "Alapszintű" vagy "Nincs" értékre állíthatja. Amikor az adatfolyamokat "Részletes" módban (alapértelmezett) hajtja végre, az adatátalakítás során minden egyes partíciószinten teljes körű naplózási tevékenységet kér a szolgáltatástól. Ez költséges művelet lehet, ezért csak a részletes hibaelhárítás engedélyezése javíthatja a teljes adatfolyamot és a folyamat teljesítményét. Az "Alapszintű" mód csak az átalakítási időtartamokat naplózza, míg a "Nincs" csak az időtartamok összegzését adja meg.

Naplózási szint

Adatsín tulajdonságai

Az adatfolyamok csoportosítási funkciója lehetővé teszi a célok végrehajtási sorrendjének beállítását, valamint a célok csoportosítását ugyanazzal a csoportszámmal. A csoportok kezeléséhez megkérheti a szolgáltatást, hogy ugyanabban a csoportban, párhuzamosan futtassa a sinks-eket. Beállíthatja azt is, hogy a fogadó csoport folytatódjon akkor is, ha az egyik fogadó hibát észlel.

Az adatfolyam kimenetek alapértelmezett viselkedése az, hogy egymás után sorosan hajtják végre a kimeneteket, és ha hiba lép fel a kimenetben, a teljes adatfolyam hibát jelez. Emellett az összes fogadó alapértelmezés szerint ugyanarra a csoportra van beállítva, hacsak nem lép be az adatfolyam tulajdonságaiba, és nem állít be különböző prioritásokat a fogadók számára.

Fogadó tulajdonságai

Csak az első sor

Ez a beállítás csak olyan adatfolyamok esetén érhető el, amelyeknél engedélyezve van a gyorsítótár a "Tevékenységhez való kimenet" funkcióhoz. A folyamatba közvetlenül injektált adatfolyam kimenete legfeljebb 2 MB lehet. A "csak az első sor" beállításával korlátozhatja az adatfolyamból származó adatkimenetet, amikor az adatfolyam tevékenységi kimenetét közvetlenül a munkafolyamatba integrálja.

Adatfolyam paraméterezése

Paraméteres adatkészletek

Ha az adatfolyam paraméteres adatkészleteket használ, állítsa be a paraméterértékeket a Beállítások lapon.

Adatfolyam-paraméterek végrehajtása

Paraméteres adatfolyamok

Ha az adatfolyam paraméterezve van, állítsa be az adatfolyam paramétereinek dinamikus értékeit a Paraméterek lapon. Dinamikus vagy literális paraméterértékek hozzárendeléséhez használhatja a folyamatkifejezés nyelvét vagy az adatfolyam-kifejezés nyelvét. További információ: Adatfolyam Paraméterek.

Paraméteres számítási tulajdonságok.

Az alapszámot vagy a számítási típust paraméterezheti, ha az automatikusan feloldott Azure integrációs modult használja, és megadja a compute.coreCount és a compute.computeType értékeit.

Adatfolyam-paraméter példa végrehajtása

Adatfolyam tevékenység hibakeresése csővezetékben

Ha Adatfolyam tevékenységgel szeretne hibakeresési folyamatot futtatni, a felső sávon lévő Adatfolyam Hibakeresés csúszkával kell bekapcsolnia data flow hibakeresési módot. A hibakeresési mód lehetővé teszi az adatfolyam aktív Spark-fürtön való futtatását. További információ: Hibakeresési mód.

Képernyőkép arról, hogy hol található a Hibakeresés gomb

A hibakeresési folyamat az aktív hibakeresési fürtön fut, nem a Adatfolyam tevékenységbeállításokban megadott integrációs futtatókörnyezeten. A hibakeresési mód indításakor kiválaszthatja a hibakeresési számítási környezetet.

A Adatfolyam tevékenység figyelése

A Adatfolyam tevékenység speciális figyelési felülettel rendelkezik, ahol megtekintheti a particionálást, a fázisidőt és az adatsoradatokat. Nyissa meg a monitorozási panelt a Szemüveg ikonnal a Műveletek területen. További információ: Monitorozási Adatfolyam.

A Adatfolyam tevékenység eredményének felhasználása egy későbbi tevékenység során

Az adatfolyam-tevékenység metrikákat ad ki az egyes fogadókba írt sorok és az egyes forrásból beolvasott sorok számával kapcsolatban. Ezek az eredmények a tevékenységfuttatás eredményének output szakaszában jelennek meg. A visszaadott metrikák formátuma az alábbi json.

{
    "runStatus": {
        "metrics": {
            "<your sink name1>": {
                "rowsWritten": <number of rows written>,
                "sinkProcessingTime": <sink processing time in ms>,
                "sources": {
                    "<your source name1>": {
                        "rowsRead": <number of rows read>
                    },
                    "<your source name2>": {
                        "rowsRead": <number of rows read>
                    },
                    ...
                }
            },
            "<your sink name2>": {
                ...
            },
            ...
        }
    }
}

Ha például egy "sink1" nevű fogadóba írt sorok számát szeretné elérni egy "dataflowActivity" nevű tevékenységben, használja a következőt @activity('dataflowActivity').output.runStatus.metrics.sink1.rowsWritten: .

A "source1" nevű forrásból beolvasott sorok számának lekéréséhez, amelyet az adott fogadóban használtak, használja a @activity('dataflowActivity').output.runStatus.metrics.sink1.sources.source1.rowsRead kifejezést.

Feljegyzés

Ha egy kimenethez nincs írt sor, az nem jelenik meg a metrikákban. A létezés a contains függvény használatával ellenőrizhető. Például ellenőrzi, contains(activity('dataflowActivity').output.runStatus.metrics, 'sink1') hogy írtak-e bármilyen sort a sink1-be.

Lásd a támogatott vezérlési folyamatok tevékenységeit: