Terminología de Azure Synapse Analytics

2025-02-06

Este artículo le guía por los conceptos básicos de Azure Synapse Analytics.

Área de trabajo de Synapse

Un área de trabajo de Synapse es un límite de colaboración protegible para realizar análisis empresariales basados en la nube en Azure. Un área de trabajo se implementa en una región específica y tiene una cuenta de Azure Data Lake Storage Gen2 asociada y un sistema de archivos para almacenar datos temporales. Un área de trabajo está en un grupo de recursos.

Un área de trabajo le permite realizar análisis con SQL y Apache Spark. Los recursos disponibles para los análisis de SQL y Spark se organizan en grupos de SQL y Spark.

Servicios vinculados

Un área de trabajo puede contener cualquier número de servicios vinculados, básicamente cadenas de conexión que definen la información necesaria para que el área de trabajo se conecte a recursos externos.

SQL de Synapse

Synapse SQL le permite realizar análisis basados en Transact-SQL (T-SQL) en el área de trabajo de Synapse. Synapse SQL tiene dos modelos de consumo: dedicado y sin servidor. Para el modelo dedicado, use grupos de SQL dedicados. Un área de trabajo puede tener un número ilimitado de estos grupos. Para usar el modelo sin servidor, use los grupos de SQL sin servidor. Cada área de trabajo tiene uno de estos grupos.

Puede trabajar con grupos de SQL en Synapse Studio mediante la ejecución de scripts SQL.

Nota:

El grupo de SQL dedicado en Azure Synapse es diferente del grupo de SQL dedicado (anteriormente SQL DW). No todas las características del grupo de SQL dedicado de las áreas de trabajo de Azure Synapse se aplican al grupo de SQL dedicado (anteriormente, SQL DW), y viceversa. Para habilitar las características del área de trabajo para un grupo de SQL dedicado existente (anteriormente SQL DW), consulte Habilitación de las características del área de trabajo para un grupo de SQL dedicado (anteriormente SQL DW).

Apache Spark para Synapse

Para usar el análisis de Spark, cree y use grupos de Apache Spark sin servidor en el área de trabajo de Synapse. Al empezar a usar un grupo de Spark, las áreas de trabajo crean una Sesión de Spark para controlar los recursos asociados a esa sesión.

En Synapse hay dos maneras de usar Spark:

Cuadernos de Spark para la ciencia y la ingeniería de datos mediante Scala, PySpark, C#y SparkSQL
Definiciones de trabajo de Spark para ejecutar trabajos de Spark por lotes con archivos jar

SynapseML

SynapseML (anteriormente conocido como MMLSpark) es una biblioteca de código abierto que simplifica la creación de canalizaciones de aprendizaje automático (ML) escalables de forma masiva. Es un ecosistema de herramientas que se usan para expandir el marco de Apache Spark en varias indicaciones nuevas. SynapseML unifica varios marcos de aprendizaje automático existentes y nuevos algoritmos de Microsoft en una única API escalable que se puede usar en Python, R, Scala, .NET y Java. Para más información, consulte ¿Qué es SynapseML?

Pipelines

Las canalizaciones son la forma en que Azure Synapse proporciona integración de datos, lo que le permite mover datos entre servicios y organizar actividades.

Canalizaciones son una agrupación lógica de actividades que realizan una tarea conjuntamente.
Actividades definir acciones dentro de una canalización para realizar en datos como copiar datos o ejecutar un Cuaderno o un script SQL.
Flujos de datos son una forma específica de actividad que proporciona una experiencia sin código para realizar la transformación de datos que usa Spark de Synapse en segundo plano.
Desencadenador ejecuta una canalización. Se puede ejecutar manual o automáticamente (programación, ventana de saltos de tamaño constante o basada en eventos).
Conjunto de datos de integración es una vista con nombre de datos que simplemente apunta o hace referencia a los datos que se van a usar en una actividad como entrada y salida. Pertenece a un servicio vinculado.

Data Explorer (versión preliminar)

Azure Synapse Data Explorer proporciona a los clientes una experiencia de consulta interactiva para desbloquear información de datos de registro y telemetría.

Grupos de Explorador de datos son clústeres dedicados que incluyen dos o más nodos de proceso con almacenamiento SSD local (caché activa) para optimizar el rendimiento de las consultas y varios blobs de almacenamiento (caché en frío) para la persistencia.
Las bases de datos de Data Explorer se hospedan en grupos de Data Explorer y son entidades lógicas que se realizan en colecciones de tablas y otros objetos de base de datos. Puede tener más de una base de datos por grupo.
Tablas son objetos de base de datos que contienen datos organizados mediante un modelo de datos relacional tradicional. Los datos se almacenan en registros que se adhieren al esquema de tabla bien definido de Data Explorer, que define una lista ordenada de columnas, en la que cada columna tiene un nombre y un tipo de datos escalar. Los tipos de datos escalares pueden ser estructurados (int, real, datetime o timespan), semiestructurados (dynamic) o texto libre (string). El tipo dinámico es similar a JSON, ya que puede contener un único valor escalar, una matriz o un diccionario de estos valores.
Tablas externas son tablas que hacen referencia a un origen de datos SQL o de almacenamiento fuera de la base de datos del Explorador de datos. De forma similar a las tablas, una tabla externa tiene un esquema bien definido (una lista ordenada de pares de nombre de columna y tipo de datos). A diferencia de las tablas de Data Explorer en las que los datos se ingieren en grupos de Data Explorer, las tablas externas trabajan con datos almacenados y administrados fuera de los grupos. Las tablas externas no conservan ningún dato y se usan para consultar o exportar datos a un almacén de datos externo.

Compartir a través de