A Spark használata az Azure Synapse Analyticsben

3 perc

Számos különböző alkalmazást futtathat a Sparkban, beleértve a Python- vagy Scala-szkriptekben lévő kódot, a Java-archívumként (JAR) lefordított Java-kódot és másokat. A Sparkot általában kétféle számítási feladatban használják:

Kötegelt vagy streamelési feladatok az adatok betöltésére, tisztítására és átalakítására – gyakran automatizált folyamat részeként futnak.
Interaktív elemzési munkamenetek az adatok feltárásához, elemzéséhez és vizualizációihoz.

Spark-kód futtatása jegyzetfüzetekben

Az Azure Synapse Studio beépített notebook-felületet tartalmaz a Spark használatához. A jegyzetfüzetek intuitív módon kombinálják a kódot Markdown-jegyzetekkel, amelyeket gyakran használnak adattudósok és adatelemzők. Az Azure Synapse Studióban az integrált jegyzetfüzetek megjelenése és megjelenése hasonló a Jupyter notebookokéhoz – ez egy népszerű nyílt forráskód notebookplatform.

A screenshot of a notebook in Azure Synapse Studio.

Megjegyzés:

Bár általában interaktívan használják, a jegyzetfüzetek belefoglalhatók az automatizált folyamatokba, és felügyelet nélküli szkriptként futtathatók.

A jegyzetfüzetek egy vagy több cellából állnak, amelyek mindegyike kódból vagy markdownból áll. A jegyzetfüzetek kódcellái olyan funkciókkal rendelkeznek, amelyek segíthetnek a hatékonyabb munkavégzésben, például:

Szintaxiskiemelés és hibatámogatás.
Kód automatikus kitöltése.
Interaktív adatvizualizációk.
Az eredmények exportálásának képessége.

Tipp.

Ha többet szeretne megtudni a jegyzetfüzetek Azure Synapse Analyticsben való használatáról, tekintse meg a Synapse-jegyzetfüzetek létrehozását, fejlesztését és karbantartását az Azure Synapse Analytics dokumentációjában található Azure Synapse Analytics-cikkben .

Adatok elérése Synapse Spark-készletből

Az Azure Synapse Analyticsben a Spark használatával különböző forrásokból származó adatokkal dolgozhat, például:

Az Azure Synapse Analytics-munkaterület elsődleges tárfiókján alapuló adattó.
A munkaterületen társított szolgáltatásként definiált tároláson alapuló adattó.
Dedikált vagy kiszolgáló nélküli SQL-készlet a munkaterületen.
Azure SQL- vagy SQL Server-adatbázis (az SQL Server Spark-összekötőjének használatával)
Társított szolgáltatásként definiált és a Cosmos DB-hez készült Azure Synapse Link használatával konfigurált Azure Cosmos DB elemzési adatbázis.
A munkaterület társított szolgáltatásaként definiált Azure Data Explorer Kusto-adatbázis.
Egy külső Hive-metaadattár, amely társított szolgáltatásként van definiálva a munkaterületen.

A Spark egyik leggyakoribb felhasználási módja a data lake-beli adatok használata, ahol a fájlok több gyakran használt formátumban is olvashatók és írhatók, beleértve a tagolt szöveget, a Parquetet, az Avro-t és másokat.

Folytatás

A Spark használata az Azure Synapse Analyticsben

Spark-kód futtatása jegyzetfüzetekben

Adatok elérése Synapse Spark-készletből

Visszajelzés