Adatok átalakítása Synapse-jegyzetfüzet futtatásával

A következőkre vonatkozik: Azure Data Factory Azure Synapse Analytics

Tipp.

Data Factory a Microsoft Fabric a Azure Data Factory következő generációja, egyszerűbb architektúrával, beépített AI-vel és új funkciókkal. Ha még nem ismerkedik az adatintegrációval, kezdje a Fabric Data Factoryvel. A meglévő ADF-munkaterhelések a Fabricra frissíthetők az adattudomány, a valós idejű elemzés és a jelentéskészítés új képességeinek eléréséhez.

Az Azure Synapse-folyamatban található Notebook-tevékenység egy Synapse-jegyzetfüzetet futtat az Azure Synapse Analytics-munkaterületen. Ez a cikk az adatátalakítási tevékenységekről szóló cikkre épül, amely általános áttekintést nyújt az adatátalakításról és a támogatott átalakítási tevékenységekről.

Azure Synapse Analytics-jegyzetfüzettevékenységet közvetlenül az Azure Data Factory Studio felhasználói felületén hozhat létre. A Synapse-jegyzetfüzetek felhasználói felülettel történő létrehozásának részletes útmutatóját az alábbiakban találja.

Jegyzetfüzet-tevékenység hozzáadása a Synapse-hez felhasználói felülettel rendelkező folyamathoz

Ha jegyzetfüzet-tevékenységet szeretne használni a Synapse-hez egy folyamatban, hajtsa végre az alábbi lépéseket:

Általános beállítások

  1. Keressen jegyzetfüzetet a folyamattevékenységek panelen, és húzza a Synapse alatti jegyzetfüzet-tevékenységet a folyamatvászonra.
  2. Jelölje ki az új jegyzetfüzet-tevékenységet a vásznon, ha még nincs kijelölve.
  3. Az Általános beállításokban adja meg a név mintáját.
  4. (Beállítás) Leírást is megadhat.
  5. Időtúllépés: Egy tevékenység maximális időtartama. Az alapértelmezett érték 12 óra, az engedélyezett maximális idő pedig 7 nap. Formátum: D.HH:MM:SS.
  6. Újrapróbálkozás: Az újrapróbálkozási kísérletek maximális száma.
  7. Újrapróbálkozási időköz (mp): Az egyes újrapróbálkozási kísérletek közötti másodpercek száma.
  8. Biztonságos kimenet: Ha be van jelölve, a tevékenység kimenete nem lesz rögzítve a naplózásban.
  9. Biztonságos bemenet: Ha be van jelölve, a tevékenységből származó bemenet nem lesz rögzítve a naplózásban.

Az Azure Synapse Analytics (Artifacts) beállításai

Válassza az Azure Synapse Analytics (Artifacts) lapot egy új Azure Synapse Analytics-társított szolgáltatás kiválasztásához vagy létrehozásához, amely végrehajtja a Notebook-tevékenységet.

Képernyőkép a notebook tevékenység társított szolgáltatás füléről.

Beállítások lap

  1. Jelölje ki az új Synapse Notebook-tevékenységet a vásznon, ha még nincs kijelölve.

  2. Válassza a Settings (Beállítások) fület.

  3. Bontsa ki a Jegyzetfüzetek listát, és kiválaszthat egy meglévő jegyzetfüzetet a csatolt Azure Synapse Analyticsben (Artifacts).

  4. Kattintson a Megnyitás gombra annak a társított szolgáltatásnak a lapjának megnyitásához, amelyben a kijelölt jegyzetfüzet található.

Feljegyzés

Ha a társított szolgáltatás munkaterület-erőforrás-azonosítója üres, a Megnyitás gomb le lesz tiltva.

A megnyitás gomb képernyőképe le van tiltva.

  1. Válassza a Beállítások lapot, és válassza ki a jegyzetfüzetet, valamint az opcionális alapparamétereket, amelyeket a jegyzetfüzetnek adhat meg.

    Képernyőkép egy jegyzetfüzet-tevékenység Beállítások lapjáról.

  2. (Nem kötelező) A Synapse-jegyzetfüzet adatait is kitöltheti. Ha a következő beállítások üresek, a Rendszer a Synapse-jegyzetfüzet beállításait fogja használni a futtatáshoz; ha a következő beállítások nem üresek, ezek a beállítások maguk a Synapse-jegyzetfüzet beállításait váltják fel.

    Tulajdonság Leírás
    Spark-készlet Hivatkozás a Spark-erőforráskészletre. A listából kiválaszthatja az Apache Spark-készletet.
    Végrehajtó mérete A munkamenethez megadott Apache Spark-készletben lefoglalt végrehajtókhoz használandó magok és memória száma. Dinamikus tartalom esetén az érvényes értékek: Small/Medium/Large/XLarge/XXLarge.
    Végrehajtók dinamikus kiosztása Ez a beállítás a Spark-alkalmazás-végrehajtók lefoglalásának Spark-konfigurációban lévő dinamikus foglalási tulajdonságához lesz megfeleltetve.
    Minimális végrehajtók A feladathoz megadott Spark-készletben lefoglalandó végrehajtók minimális száma.
    Végrehajtók maximális száma A feladathoz megadott Spark-készletben lefoglalandó végrehajtók maximális száma.
    Illesztőprogram mérete A feladathoz megadott Apache Spark-készletben megadott illesztőprogramhoz használandó magok és memória száma.

Az Azure Synapse Analytics Notebook tevékenységdefiníciója

Íme egy Azure Synapse Analytics-jegyzetfüzettevékenység JSON-mintadefiníciója:

{
    "activities": [
            {
                "name": "demo",
                "description": "description",
                "type": "SynapseNotebook",
                "dependsOn": [],
                "policy": {
                    "timeout": "7.00:00:00",
                    "retry": 0,
                    "retryIntervalInSeconds": 30,
                    "secureOutput": false,
                    "secureInput": false
                },
                "userProperties": [
                    {
                        "name": "testproperties",
                        "value": "test123"
                    }
                ],
                "typeProperties": {
                    "notebook": {
                        "referenceName": {
                            "value": "Notebookname",
                            "type": "Expression"
                        },
                        "type": "NotebookReference"
                    },
                    "parameters": {
                        "test": {
                            "value": "testvalue",
                            "type": "string"
                        }
                    },
                    "snapshot": true,
                    "sparkPool": {
                        "referenceName": {
                            "value": "SampleSpark",
                            "type": "Expression"
                        },
                        "type": "BigDataPoolReference"
                    }
                },
                "linkedServiceName": {
                    "referenceName": "AzureSynapseArtifacts1",
                    "type": "LinkedServiceReference"
                }
            }
        ]
    }

Az Azure Synapse Analytics Notebook tevékenységtulajdonságai

Az alábbi táblázat a JSON-definícióban használt JSON-tulajdonságokat ismerteti:

Tulajdonság Leírás Szükséges
név A folyamat tevékenységének neve. Igen
leírás A tevékenység célját leíró szöveg. Nem
típus Az Azure Synapse Analytics Notebook-tevékenység esetében a tevékenység típusa SynapseNotebook. Igen
jegyzetfüzet Az Azure Synapse Analyticsben futtatandó jegyzetfüzet neve. Igen
sparkPool Az Azure Synapse Analytics Notebook futtatásához szükséges Spark pool. Nem
paraméter Az Azure Synapse Analytics Notebook futtatásához szükséges paraméter. További információ: Adatok átalakítása Synapse-jegyzetfüzet futtatásával Nem

Paramétercella kijelölése

Az Azure Data Factory megkeresi a paramétercellát, és a végrehajtási időpontban átadott paraméterek alapértelmezett értékeit használja. A végrehajtási motor egy új cellát ad hozzá a paramétercella alá bemeneti paraméterekkel az alapértelmezett értékek felülírásához. Az adatok átalakítására synapse-jegyzetfüzet futtatásával hivatkozhat.

A Synapse jegyzetfüzet celláinak kimeneti értékének olvasása

Az aktivitás során olvashatja le a jegyzetfüzet celláinak kimeneti értékét. Ehhez a panelhez a következőre hivatkozhat: Adatok átalakítása Synapse jegyzetfüzet futtatásával.

Másik Synapse-jegyzetfüzet futtatása

Synapse-jegyzetfüzetekben hivatkozhat más jegyzetfüzetekre a %run magic vagy a mssparkutils notebook segédprogramok meghívásával. Mindkettő támogatja a beágyazott függvényhívásokat. A forgatókönyv alapján megfontolandó két módszer főbb különbségei a következők:

  • A %run varázslat átmásolja a hivatkozott jegyzetfüzet összes celláját a %run cellába, és megosztja a változók környezetét. Amikor a notebook1 a notebook2-re hivatkozik %run notebook2, és a notebook2 meghívja az mssparkutils.notebook.exit függvényt, a notebook1 cellák végrehajtása leáll. Javasoljuk, hogy használja a %run magic parancsot, ha "bele szeretne foglalni" egy jegyzetfüzetfájlt.
  • Az mssparkutils notebook segédprogram metódusként vagy függvényként hívja meg a hivatkozott jegyzetfüzetet. A változókörnyezet nincs megosztva. Ha a jegyzetfüzet1 a jegyzetfüzet2-re hivatkozik mssparkutils.notebook.run("notebook2") és a jegyzetfüzet2 meghívja az mssparkutils.notebook.exit függvényt, a jegyzetfüzet1 celláinak végrehajtása folytatódik. Javasoljuk, hogy használja az mssparkutils notebook segédprogramokat, amikor "importálni" szeretne egy jegyzetfüzetet.

Az Azure Synapse Analytics notebook-tevékenységfuttatási előzményeinek megtekintése

Lépjen a Monitor fül alatt a Pipeline futtatásokra, és látni fogja az aktivált pipeline-t. Nyissa meg azt a pipeline-t, amely jegyzetfüzet tevékenységet tartalmaz, hogy megtekinthesse a futtatási előzményeket.

Képernyőkép egy jegyzetfüzet-tevékenység bemenetéről és kimenetéről.

A jegyzetfüzet-pillanatkép megnyitása esetén ez a funkció jelenleg nem támogatott.

A jegyzetfüzet-tevékenység bemenetét vagy kimenetét a bemenet vagy a Kimenet gombra kattintva tekintheti meg. Ha a folyamat felhasználói hibával meghiúsult, válassza ki a kimenetet az eredménymező ellenőrzéséhez a részletes felhasználói hibakövetés megtekintéséhez.

Képernyőkép egy jegyzetfüzet-tevékenység kimeneti felhasználói hibájáról.