Azure Synapse Analytics terminológiája

Cikk
03/25/2023

Ez a dokumentum végigvezeti a Azure Synapse Analytics alapfogalmain.

Synapse-munkaterület

A Synapse-munkaterületek biztonságos együttműködési határok a felhőalapú vállalati elemzések Azure-ban való elvégzéséhez. Egy munkaterület egy adott régióban van üzembe helyezve, és rendelkezik egy társított ADLS Gen2-fiókkal és fájlrendszerrel (ideiglenes adatok tárolására). A munkaterületek erőforráscsoport alatt találhatóak.

A munkaterület lehetővé teszi, hogy elemzéseket végezzen az SQL és az Apache Spark használatával. Az SQL- és Spark-elemzésekhez elérhető erőforrások SQL- és Spark-készletekbe vannak rendezve.

Társított szolgáltatások

A munkaterületek tetszőleges számú társított szolgáltatást tartalmazhatnak, lényegében kapcsolati sztringeket, amelyek meghatározzák a munkaterület külső erőforrásokhoz való csatlakozásához szükséges kapcsolati adatokat.

Synapse SQL

A Synapse SQL T-SQL-alapú elemzéseket képes végezni a Synapse-munkaterületen. A Synapse SQL két használati modellel rendelkezik: dedikált és kiszolgáló nélküli. A dedikált modellhez használjon dedikált SQL-készleteket. A munkaterületek tetszőleges számú készletet tartalmazhatnak. A kiszolgáló nélküli modell használatához használja a kiszolgáló nélküli SQL-készleteket. Minden munkaterület rendelkezik ilyen készletekkel.

A Synapse Studio-ben SQL-szkriptek futtatásával dolgozhat SQL-készletekkel.

Megjegyzés

A dedikált SQL-készletek a Azure Synapse-ben eltérnek a dedikált SQL-készlettől (korábbi nevén SQL DW). A dedikált SQL-készlet nem minden funkciója Azure Synapse munkaterületeken a dedikált SQL-készletre (korábbi nevén SQL DW) vonatkozik, és fordítva. Ha egy meglévő dedikált SQL-készlethez (korábbi nevén SQL DW-hez) szeretné engedélyezni a munkaterület-funkciókat, olvassa el a Munkaterület engedélyezése a dedikált SQL-készlethez (korábbi nevén SQL DW) című cikket.

Apache Spark for Synapse

A Spark-elemzések használatához hozzon létre és használjon kiszolgáló nélküli Apache Spark-készleteket a Synapse-munkaterületen. Amikor elkezdi használni a Spark-készletet, a munkaterületek létrehoznak egy Spark-munkamenetet az adott munkamenethez társított erőforrások kezeléséhez.

A Synapse-ben kétféleképpen használhatja a Sparkot:

Spark-jegyzetfüzetek adatelemzéshez és -tervezéshez a Scala, a PySpark, a C# és a SparkSQL használatával
Spark-feladatdefiníciók kötegelt Spark-feladatok jar-fájlokkal való futtatásához.

SynapseML

A SynapseML (korábbi nevén MMLSpark) egy nyílt forráskódú kódtár, amely leegyszerűsíti a nagymértékben skálázható gépi tanulási (ML-) folyamatok létrehozását. Ez az Apache Spark-keretrendszer több új irányban történő bővítésére használt eszközök ökoszisztémája. A SynapseML számos meglévő gépi tanulási keretrendszert és új Microsoft-algoritmust egyetlen, skálázható API-vá egyesít, amely a Python, az R, a Scala, a .NET és a Java használatával használható. További információért tekintse meg a SynapseML főbb funkcióit.

Pipelines

A folyamatok a Azure Synapse adatintegrációt biztosítanak, amely lehetővé teszi az adatok szolgáltatások és vezénylési tevékenységek közötti áthelyezését.

A folyamat olyan tevékenységek logikai csoportosítása, amelyek egy feladatot együtt hajtanak végre.
A tevékenységek olyan műveleteket határoznak meg egy folyamaton belül, amelyeket olyan adatokon kell végrehajtani, mint az adatok másolása, egy jegyzetfüzet vagy egy SQL-szkript futtatása.
Az adatfolyamok egy adott tevékenységtípus, amely kód nélküli felületet biztosít az adatátalakításhoz, amely a Synapse Sparkot használja a háttérben.
Trigger – Végrehajt egy folyamatot. Futtatható manuálisan vagy automatikusan (ütemezés, átfedésmentes ablak vagy eseményalapú)
Integrációs adatkészlet – Az adatok nevesített nézete, amely egyszerűen a tevékenységben bemenetként és kimenetként használni kívánt adatokra mutat vagy hivatkozik. Társított szolgáltatáshoz tartozik.

Data Explorer (előzetes verzió)

Azure Synapse Data Explorer interaktív lekérdezési felületet biztosít az ügyfeleknek, hogy feltárják a napló- és telemetriaadatokból származó megállapításokat.

Data Explorer készletek dedikált fürtök, amelyek két vagy több számítási csomópontot tartalmaznak helyi SSD-tárolóval (gyakori elérésű gyorsítótárral) az optimalizált lekérdezési teljesítmény érdekében, valamint több blobtárolót (hideg gyorsítótárat) az adatmegőrzéshez.
Data Explorer adatbázisokat Data Explorer készletek üzemeltetik, és táblákból és más adatbázis-objektumokból álló logikai entitások. Készletenként több adatbázis is lehet.
A táblák olyan adatbázis-objektumok, amelyek hagyományos relációs adatmodellel rendszerezett adatokat tartalmaznak. Az adatok olyan rekordokban vannak tárolva, amelyek megfelelnek Data Explorer jól definiált táblasémájának, amely az oszlopok rendezett listáját határozza meg, minden oszlopnak van neve és skaláris adattípusa. A skaláris adattípusok strukturálhatók (int, real, datetime vagy timespan), félig strukturált (dinamikus) vagy szabad szöveg (sztring). A dinamikus típus abban hasonlít a JSON-hoz, hogy egyetlen skaláris értéket, tömböt vagy ilyen értékek szótárát képes tárolni.
A külső táblák olyan táblák, amelyek a Data Explorer adatbázison kívüli tárolóra vagy SQL-adatforrásra hivatkoznak. A táblákhoz hasonlóan egy külső tábla jól definiált sémával rendelkezik (az oszlopnév és az adattípus párok rendezett listája). Ellentétben Data Explorer olyan táblákkal, ahol az adatok Data Explorer készletekbe vannak betöltve, a külső táblák a készleteken kívül tárolt és felügyelt adatokon működnek. A külső táblák nem őriznek meg adatokat, és adatok külső adattárba való lekérdezésére vagy exportálására szolgálnak.

Megosztás a következőn keresztül: