Preguntas frecuentes sobre Azure Synapse Analytics

En esta guía, encontrará las preguntas más frecuentes sobre Azure Synapse Analytics.

General

¿Cómo se pueden usar los roles RBAC para proteger un área de trabajo?

Azure Synapse introduce varios roles y ámbitos para asignarlos, lo que simplificará la protección del área de trabajo.

Roles de Synapse RBAC:

  • Administrador de Synapse
  • Administrador de Synapse SQL
  • Administrador de Synapse Spark
  • Colaborador de Synapse
  • Editor de artefactos de Synapse
  • Usuario de artefactos de Synapse
  • Operador de proceso de Synapse
  • Usuario de credenciales Synapse
  • Administrador de datos vinculado a Synapse
  • Usuario de Synapse

Para proteger el área de trabajo de Synapse, asigne los roles RBAC a estos ámbitos de RBAC:

  • Áreas de trabajo
  • Grupos de Spark
  • Entornos de ejecución de integración
  • Servicios vinculados
  • Credenciales

Además, con los grupos de SQL dedicados tiene las mismas características de seguridad que conoce y tanto le gusta.

¿Cómo se controlan los grupos de SQL dedicados, los grupos de SQL sin servidor y los grupos de Spark sin servidor?

Como punto de partida, Azure Synapse funciona con las alertas de costos y el análisis de costos integrados disponibles en el nivel de suscripción de Azure.

  • Grupos de SQL dedicados: tiene visibilidad directa del costo y control sobre el costo, ya que crea y especifica los tamaños de los grupos de SQL dedicados. Puede controlar aún más qué usuarios que pueden crear o escalar grupos de SQL dedicados con roles de Azure RBAC.

  • Grupos de SQL sin servidor: tiene controles de supervisión y administración de costos que le permiten poner un tope de gasto a nivel diario, semanal y mensual. Para más información, consulte Administración de costos para un grupo de SQL sin servidor.

  • Grupos de Spark sin servidor: puede restringir quién puede crear grupos de Spark con roles de Synapse RBAC.

¿Admitirá el área de trabajo de Synapse la organización en carpeta de objetos y la granularidad en GA?

Las áreas de trabajo de Synapse admiten carpetas definidas por el usuario.

¿Se puede vincular más de un área de trabajo de Power BI a una sola área de trabajo de Azure Synapse?

Sí, a partir del 10 de junio de 2021, Synapse Studio le permite agregar más de un área de trabajo de Power BI a un área de trabajo de Azure Synapse.

Azure Synapse Analytics admite actualmente Azure Synapse Link desde Azure Cosmos DB a Synapse Apache Spark y al grupo de SQL sin servidor. Azure Synapse Link para Apache Spark está disponible con carácter general. Synapse Link para un grupo de SQL sin servidor está en versión preliminar. Para más información, consulte Azure Synapse Link para Azure Cosmos DB.

Azure Synapse Link para SQL normalmente está disponible para SQL Server 2022 y Azure SQL Database. Para más información, consulte ¿Qué es Azure Synapse Link para SQL?

¿Admite el área de trabajo de Azure Synapse CI/CD?

Sí. Todos los artefactos de canalización, cuadernos, scripts SQL y definiciones de trabajos de Spark residirán en Git. Todas las definiciones de grupo se almacenarán en Git como plantillas de Azure Resource Manager (ARM). Los objetos del grupo de SQL dedicado (esquemas, tablas, vistas, etc.) se administrarán con proyectos de base de datos con compatibilidad con CI/CD. Para más información, consulte esta guía sobre CI y CD.

¿Cuáles son las diferencias funcionales entre los grupos de SQL dedicados y los grupos sin servidor?

Las funcionalidades y los requisitos son diferentes entre los dos tipos de grupos. Las diferencias incluyen objetos de base de datos, funcionalidades del lenguaje de consulta, seguridad, herramientas, acceso a datos y formato de datos. Para obtener una comparación detallada de los grupos de SQL y los grupos sin servidor, visite Comparación de grupos. Para obtener los procedimientos recomendados al usar cualquier tipo de grupo, vea Procedimientos recomendados para el grupo de SQL dedicado y Procedimientos recomendados para el grupo de SQL sin servidor.

¿Qué son las tablas Delta y por qué deben usarse?

Lakehouse se basa en formatos de datos de acceso directo abiertos, como Apache Parquet. Tiene compatibilidad de primera clase con el aprendizaje automático y la ciencia de datos. Una tabla Delta es una vista de los datos contenidos en Delta Lake, que admite la mayoría de las opciones proporcionadas por las API de lectura y escritura de DataFrame de Apache Spark. Las instancias de Lakehouse pueden solucionar desafíos importantes con los almacenes de datos, como la obsolescencia de los datos, la confiabilidad, el costo total de propiedad y el bloqueo de datos. En las tablas Delta, hay disponibles optimizaciones como la compactación automática y los planes de consulta adaptables. Para obtener una guía detallada sobre Delta Lake, visite Guía de Delta Lake.

¿Qué es la compactación automática?

La compactación automática es una de las dos características complementarias de Optimización automática para tablas Delta. Después de que una escritura en una tabla se realice correctamente, la compactación automática puede compactar aún más los archivos para las particiones que tienen el mayor número de archivos pequeños. Se recomienda utilizar la compactación automática para los casos de uso de streaming en los que la adición de minutos de latencia es aceptable y cuando no tiene llamadas OPTIMIZE normales en la tabla. Para más información sobre la optimización automática y la compactación automática, consulte esta guía de optimización automática.

Pipelines

¿Cómo me aseguro de que conozco qué credencial se usa para ejecutar una canalización?

Cada una de las actividades de una canalización de Synapse se ejecuta mediante la credencial especificada en el servicio vinculado.

¿Se admiten las instancias de IR de SSIS en Synapse Integrate?

De momento, no.

¿En qué se diferencian las canalizaciones de Azure Data Factory y las de Azure Synapse?

Algunos ejemplos de las diferencias son la compatibilidad con parámetros globales, la supervisión de trabajos de Spark para Data Flow y el uso compartido de Integration Runtime. Para más información, consulte esta documentación para Integración de datos: diferencias entre Synapse y ADF.

¿Cómo se migran las canalizaciones existentes de Azure Data Factory a un área de trabajo de Azure Synapse?

En este momento, es preciso volver a crear manualmente las canalizaciones de Azure Data Factory y los artefactos relacionados mediante la exportación del archivo JSON de la canalización original y su posterior importación en el área de trabajo de Synapse.

¿Cómo se usa una definición de trabajo de Apache Spark?

Consulte esta Guía de inicio rápido.

¿Puedo llamar a cuadernos desde canalizaciones de ADF?

Hay dos opciones para este caso de uso. Una opción consiste en mantener las canalizaciones en ADF y tendrá que encapsular una actividad web. Para más información sobre esta opción, consulte esta Guía de actividad web. La otra opción consiste en migrar las canalizaciones a Synapse. Para más información sobre la segunda opción, consulte este ejemplo de código de migración.

Spark de Apache

¿En qué se diferencian Apache Spark para Synapse y Apache Spark?

Apache Spark para Synapse es Apache Spark con compatibilidad agregada para las integraciones con otros servicios (Microsoft Entra ID, AzureML, etc.) y bibliotecas adicionales (mssparktuils, Hummingbird) y configuraciones del rendimiento preajustadas.

Todas las cargas de trabajo que se ejecuten actualmente en Apache Spark se ejecutarán en Apache Spark para Azure Synapse sin cambio alguno.

¿Qué versiones de Spark están disponibles?

A partir de septiembre de 2023, Azure Synapse Apache Spark es totalmente compatible con Spark 3.3. Para obtener una lista completa de los componentes principales y la versión admitidas actualmente, vea Compatibilidad de las versiones de Apache Spark.

¿Hay un equivalente de DButils en Azure Synapse Spark?

Sí, Azure Synapse Apache Spark proporciona la biblioteca mssparkutils. Para obtener la documentación completa de la utilidad, consulte Introducción a las utilidades Spark para Microsoft.

¿Cómo establecer los parámetros de sesión en Apache Spark?

Para establecer los parámetros de sesión, use %%configure magic available. Para que los parámetros surtan efecto, es preciso reiniciar la sesión.

¿Cómo se establecen parámetros de nivel de clúster en un grupo de Spark sin servidor?

Para establecer parámetros de nivel de clúster, puede proporcionar un archivo spark.conf para el grupo de Spark. A continuación, este grupo respetará los parámetros que se han pasado en el archivo de configuración.

¿Se puede ejecutar un clúster de Spark multiusuario en Azure Synapse Analytics?

Azure Synapse proporciona motores creados específicamente para casos de uso concretos. Apache Spark para Synapse está diseñado como un servicio de trabajo, no como un modelo de clúster. Hay dos escenarios en los que las personas solicitan un modelo de clúster multiusuario.

Escenario 1 : muchos usuarios acceden a un clúster para servir datos para la inteligencia empresarial.

La forma más fácil de realizar esta tarea es preparar los datos con Spark y, luego, aprovechar las funcionalidades de servicio de Synapse SQL para que puedan conectarse Power BI a esos conjuntos de datos.

Escenario 2: tener varios desarrolladores en un solo clúster para ahorrar dinero.

Para satisfacer este escenario, debe proporcionar a cada desarrollador un grupo de Spark sin servidor que esté configurado para usar un reducido número de recursos de Spark. Dado que los grupos de Spark sin servidor no cuestan nada hasta que se usan activamente se minimiza el costo cuando hay varios desarrolladores. Los grupos comparten metadatos (tablas de Spark) para que puedan funcionar con facilidad entre sí.

¿Cómo se incluyen, administran e instalan las bibliotecas?

Puede instalar paquetes externos a través del archivo requirements.txt al crear el grupo de Spark tanto desde el área de trabajo de Synapse como desde Azure Portal. Consulte Administración de bibliotecas para Apache Spark en Azure Synapse Analytics.

¿Qué herramientas tengo disponibles en Synapse Spark?

MSSparkUtils en Synapse Spark ofrece una variedad de utilidades para mejorar la experiencia y facilitar la integración con otras herramientas y servicios. Trabaje con sistemas de archivos, obtenga variables de entorno, encadene cuadernos y trabaje con secretos con pasos manuales mínimos. Para obtener la documentación completa, visite Utilidades de Microsoft Spark.

Grupos de SQL dedicados

¿Cuál es la diferencia entre los grupos de SQL dedicados (SQL DW) y los grupos de SQL dedicados en áreas de trabajo de Azure Synapse?

Los grupos de SQL dedicados (anteriormente SQL DW) son una plataforma de almacenamiento de datos empresariales de plataforma como servicio (PaaS) de Azure. Puede consultar grupos de SQL dedicados existentes (anteriormente SQL DW) y crear grupos de SQL dedicados en el área de trabajo de Azure Synapse. No todas las características del grupo de SQL dedicado de las áreas de trabajo de Azure Synapse se aplican a un grupo de SQL dedicado (anteriormente SQL DW) independiente, y viceversa. Para obtener más información, vea ¿Cuál es la diferencia entre grupos de SQL dedicados de Azure Synapse (anteriormente SQL DW) y grupos de SQL dedicados en un área de trabajo de Azure Synapse Analytics? Para habilitar las características del área de trabajo de Azure Synapse de un grupo de SQL dedicado existente (anteriormente SQL DW), consulte Procedimientos para habilitar un área de trabajo en el grupo de SQL dedicado (anteriormente SQL DW).

¿Cuáles son las diferencias funcionales entre los grupos de SQL dedicados y los grupos sin servidor?

Puede encontrar una lista completa de las diferencias en Diferencias entre las características de T-SQL en Synapse SQL.

Ahora que Azure Synapse está disponible de forma general, ¿cómo puedo trasladar grupos de SQL dedicados que anteriormente eran independientes en Azure Synapse?

No es necesario ningún tipo de "movimiento" ni "migración". Puede elegir habilitar nuevas características de área de trabajo en los grupos existentes. Si lo hace, no se producen cambios importantes, sino que podrá usar nuevas características como Synapse Studio, Spark y grupos de SQL sin servidor. No todas las características del grupo de SQL dedicado de las áreas de trabajo de Azure Synapse se aplican al grupo de SQL dedicado (anteriormente SQL DW), y viceversa. Para habilitar las características del área de trabajo de un grupo de SQL dedicado existente (anteriormente SQL DW), consulte Habilitación de un área de trabajo para el grupo de SQL dedicado (anteriormente SQL DW).

¿Cuál es la implementación predeterminada de los grupos de SQL dedicados ahora?

De forma predeterminada, todos los nuevos grupos de SQL dedicados se implementarán en un área de trabajo; sin embargo, si lo necesita, puede crear un grupo de SQL dedicado (anteriormente SQL DW) en un factor de forma independiente.

Seguridad de las redes

Cómo proteger el acceso a mi área de trabajo de Azure Synapse?

Con o sin una red virtual administrada, se puede conectar al área de trabajo desde redes públicas. Para obtener más información, vea Configuración de conectividad. El acceso desde las redes públicas se puede controlar al habilitar la característica de acceso de red pública o el firewall de área de trabajo. Como alternativa, puede conectarse al área de trabajo mediante un punto de conexión privado administrado y un vínculo privado. Las áreas de trabajo de Synapse sin la Red virtual administrada de Azure Synapse Analytics no tienen la capacidad de conectarse por medio de puntos de conexión privados administrados.