Terminologie Azure Synapse Analytics

Článek
03/25/2023

Tento dokument vás provede základními koncepty Azure Synapse Analytics.

Pracovní prostor Synapse

Pracovní prostor Synapse je zabezpečitelná hranice spolupráce pro provádění cloudových podnikových analýz v Azure. Pracovní prostor je nasazený v konkrétní oblasti a má přidružený účet ADLS Gen2 a systém souborů (pro ukládání dočasných dat). Pracovní prostor je ve skupině prostředků.

Pracovní prostor umožňuje provádět analýzy pomocí SQL a Apache Sparku. Prostředky dostupné pro analýzy SQL a Sparku jsou uspořádané do fondů SQL a Spark.

Propojené služby

Pracovní prostor může obsahovat libovolný počet propojených služeb, v podstatě připojovací řetězce, které definují informace o připojení potřebné pro připojení pracovního prostoru k externím prostředkům.

Synapse SQL

Synapse SQL umožňuje provádět analýzy založené na T-SQL v pracovním prostoru Synapse. Synapse SQL má dva modely spotřeby: vyhrazené a bezserverové. Pro vyhrazený model použijte vyhrazené fondy SQL. Pracovní prostor může mít libovolný počet těchto fondů. Pokud chcete použít bezserverový model, použijte bezserverové fondy SQL. Každý pracovní prostor má jeden z těchto fondů.

Uvnitř Synapse Studio můžete s fondy SQL pracovat spuštěním skriptů SQL.

Poznámka

Vyhrazené fondy SQL v Azure Synapse se liší od vyhrazeného fondu SQL (dříve SQL DW). Ne všechny funkce vyhrazeného fondu SQL v Azure Synapse pracovních prostorech se vztahují na vyhrazený fond SQL (dříve SQL Dw) a naopak. Pokud chcete povolit funkce pracovního prostoru pro existující vyhrazený fond SQL (dříve SQL DW), přečtěte si téma Povolení pracovního prostoru pro vyhrazený fond SQL (dříve SQL DW).

Apache Spark pro Synapse

Pokud chcete používat analýzy Sparku, vytvořte a používejte bezserverové fondy Apache Sparku v pracovním prostoru Synapse. Když začnete používat fond Sparku, pracovní prostory vytvoří relaci sparku , která bude zpracovávat prostředky přidružené k dané relaci.

V synapse existují dva způsoby použití Sparku:

Poznámkové bloky Spark pro datové vědy a inženýrství s využitím jazyků Scala, PySpark, C# a SparkSQL
Definice úloh Sparku pro spouštění dávkových úloh Sparku pomocí souborů JAR

SynapseML

SynapseML (dříve označovaná jako MMLSpark) je opensourcová knihovna, která zjednodušuje vytváření široce škálovatelných kanálů strojového učení (ML). Jedná se o ekosystém nástrojů, které slouží k rozšíření architektury Apache Spark v několika nových směrech. SynapseML sjednocuje několik stávajících architektur strojového učení a nové algoritmy Microsoftu do jediného škálovatelného rozhraní API, které se dá použít napříč Jazyky Python, R, Scala, .NET a Java. Další informace najdete v tématu Klíčové funkce SynapseML.

Pipelines

Kanály představují způsob, Azure Synapse poskytují integraci dat– umožňují přesouvat data mezi službami a orchestrovat aktivity.

Kanál je logické seskupení aktivit, které provádějí úlohu společně.
Aktivity definují akce v rámci kanálu, které se mají provádět s daty, jako je kopírování dat, spuštění poznámkového bloku nebo skriptu SQL.
Toky dat jsou specifickým druhem aktivity, která poskytuje prostředí bez kódu pro provádění transformace dat, která využívá synapse Spark pod pokrytím.
Trigger – spustí kanál. Můžete ho spustit ručně nebo automaticky (plán, přeskakující okno nebo na základě události).
Datová sada integrace – pojmenované zobrazení dat, které jednoduše odkazuje na data, která se mají použít v aktivitě jako vstup a výstup. Patří do propojené služby.

Data Explorer (Preview)

Azure Synapse Data Explorer poskytuje zákazníkům interaktivní dotazovací prostředí, které umožňuje získat přehledy z dat protokolů a telemetrie.

Data Explorer fondy jsou vyhrazené clustery, které zahrnují dva nebo více výpočetních uzlů s místním úložištěm SSD (horká mezipaměť) pro optimalizovaný výkon dotazů a několika úložišti objektů blob (studená mezipaměť) pro trvalost.
Data Explorer databáze jsou hostované ve fondech Data Explorer a představují logické entity tvořené kolekcemi tabulek a jiných databázových objektů. V každém fondu můžete mít více než jednu databázi.
Tabulky jsou databázové objekty, které obsahují data uspořádaná pomocí tradičního relačního datového modelu. Data se ukládají v záznamech, které odpovídají dobře definovanému schématu tabulky Data Explorer, které definuje uspořádaný seznam sloupců, přičemž každý sloupec má název a skalární datový typ. Skalární datové typy můžou být strukturované (int, real, datetime nebo timespan), částečně strukturované (dynamické) nebo volný text (řetězec). Dynamický typ je podobný formátu JSON v tom, že může obsahovat jednu skalární hodnotu, pole nebo slovník těchto hodnot.
Externí tabulky jsou tabulky, které odkazují na úložiště nebo zdroj dat SQL mimo databázi Data Explorer. Podobně jako tabulky má externí tabulka dobře definované schéma (seřazený seznam dvojic názvů sloupců a datových typů). Na rozdíl od Data Explorer tabulek, kde se data ingestují do Data Explorer fondů, externí tabulky pracují s daty uloženými a spravovanými vnějšími fondy. Externí tabulky neuchovávají žádná data a používají se k dotazování nebo exportu dat do externího úložiště dat.

Sdílet prostřednictvím