Preguntas más frecuentes sobre los clústeres de macrodatos de SQL Server

En este artículo se responde a las preguntas más frecuentes sobre los conceptos de Clústeres de macrodatos de SQL Server, sus funcionalidades, su implementación, su compatibilidad y sus herramientas.

Procedimientos recomendados

¿Cuáles son los procedimientos recomendados en lo que respecta a las ubicaciones de archivos?

En este sentido, hay menos flexibilidad en comparación con la configuración de SQL Server en equipos sin sistema operativo en Windows o Linux. En el entorno de Kubernetes, estos artefactos se extraen y deben ser portables. Actualmente, se proporcionan dos volúmenes persistentes (para datos y registros) por pod que se pueden configurar. Para obtener más información, consulte Persistencia de datos con un clúster de macrodatos de SQL Server en Kubernetes.

¿Es necesario realizar copias de seguridad del registro de transacciones en Clústeres de macrodatos de SQL Server?

Solo debe realizar copias de seguridad de registros para las bases de datos de usuario en la instancia maestra de SQL Server (según el modelo de recuperación o la configuración de alta disponibilidad). Las bases de datos del grupo de datos solo usan el modelo de recuperación SIMPLE. Lo mismo se aplica a las bases de datos DW* creadas para PolyBase.

¿Cómo puedo supervisar si las consultas distribuidas usan realmente el grupo de proceso?

Puede usar las DMV de PolyBase existentes que se han mejorado para escenarios de Clústeres de macrodatos. Para obtener más información, vea Supervisión y solución de problemas de PolyBase.

¿Es posible configurar y administrar recursos de Clústeres de macrodatos directamente a través de kubectl en el servidor de API de Kubernetes?

Aunque puede modificar parte de la configuración mediante la API de Kubernetes o kubectl, no se admite ni se recomienda. Debe ejecutar todas las operaciones de administración de Clústeres de macrodatos mediante azdata.

¿Cómo puedo realizar una copia de seguridad de los datos almacenados en HDFS?

Puede usar cualquier solución que habilite la realización de instantáneas de almacenamiento de nivel de hardware o la copia o sincronización a través de WebHDFS. También puede usar azdata bdc hdfs cp. Para obtener más información, vea azdata bdc hdfs.

Conceptos y funcionalidades

¿Hay alguna manera de "escalar horizontalmente" un procedimiento almacenado? Por ejemplo, ¿hacer que se ejecute en el grupo de proceso?

De momento, no. Una opción es implementar SQL Server en un grupo de disponibilidad AlwaysOn. Después, puede usar réplicas secundarias legibles para ejecutar algunos procesos (por ejemplo, el entrenamiento o la puntuación de aprendizaje automático, actividades de mantenimiento, etc.).

¿Cómo se puede escalar dinámicamente pods de un grupo?

En este momento, este no es un escenario admitido.

¿Es posible realizar una copia de seguridad de tablas externas almacenadas en grupos de datos?

La base de datos de la instancia del grupo de datos no tiene metadatos sobre las tablas externas; es como cualquier base de datos de usuario. Puede realizar una copia de seguridad o una restauración, pero debe asegurarse de que los metadatos de la tabla externa de la base de datos de metadatos de la instancia maestra de SQL estén sincronizados para evitar resultados incoherentes.

¿Proporciona particionamiento el grupo de datos?

El grupo de datos es un concepto de tabla distribuida. Normalmente, se hace referencia al particionamiento como un concepto de OLTP, pero esto no se admite actualmente.

¿Cuándo se debe usar el grupo de datos o el bloque de almacenamiento para el almacenamiento de datos sin procesar?

El término "grupo" está reservado para describir una colección de servicios o aplicaciones homogéneos. Por ejemplo, el grupo de datos es un conjunto de proceso y almacenamiento de SQL Server con estado, mientras que el bloque de almacenamiento es un conjunto de servicios de HDFS y Spark. La instancia maestra de SQL Server es una instancia única o bien varias instancias que se pueden configurar en un grupo de disponibilidad. La instancia maestra de SQL Server es una instancia normal de SQL Server en Linux en la que se puede usar cualquier característica disponible en Linux. Debe empezar primero con el modelo de datos, las entidades y los servicios o aplicaciones que funcionarán principalmente en la entidad. No es necesario almacenar todos los datos en un solo lugar, como en el caso de SQL Server, HDFS o un grupo de datos. De acuerdo con el análisis de datos, es posible que almacene la mayoría de los datos en HDFS, que los procese a un formato más eficaz y que los exponga a otros servicios. Los datos restantes se almacenarán en la instancia maestra de SQL.

¿Admite el clúster de macrodatos de SQL Server los cálculos y las bibliotecas de aprendizaje profundo basados en GPU (PyTorch, Keras, bibliotecas de imágenes específicas, etc.)?

En este momento, este no es un escenario admitido.

¿Hay alguna manera de configurar varias notificaciones de volumen para un grupo?

Cada pod solo puede tener dos volúmenes persistentes. Puede extraer el volumen en el nivel del sistema operativo y usarlo para el almacenamiento persistente. Por ejemplo, puede crear una partición del sistema operativo RAID 0 mediante varios discos y usarla para el volumen persistente mediante un aprovisionador de almacenamiento local. No existe ninguna manera de usar más volúmenes persistentes por pod en la actualidad. Los volúmenes persistentes se asignan a directorios dentro del contenedor y esto es fijo. Para obtener más información sobre los volúmenes persistentes, vea Volúmenes persistentes en la documentación de Kubernetes.

Si se configuran varios proveedores y varios discos, ¿se actualizará la configuración de HDFS con todas las notificaciones del volumen de datos?

Puede configurar el bloque de almacenamiento para que use una clase de almacenamiento específica en el momento de la implementación. Consulte Persistencia de los datos con un clúster de macrodatos de SQL Server en Kubernetes.

¿Cuáles son las opciones para acceder al almacenamiento basado en Ceph?

Los niveles de HDFS permiten realizar la integración de forma transparente con protocolos basados en S3. Para obtener más información, consulte Cómo montar S3 para los niveles de HDFS en un clúster de macrodatos.

¿Se conservan los datos de HDFS después de una actualización?

Sí, los datos se conservan porque están respaldos por volúmenes persistentes y la actualización solo implementa pods existentes con nuevas imágenes.

¿Cómo controlan la caché los niveles de HDFS?

Cuando se usan los niveles de HDFS, los datos se almacenan en caché en la instancia de HDFS local que se ejecuta en el clúster de macrodatos para permitir que los usuarios se conecten a grandes lagos de datos sin necesidad de reunir todos los datos. Hay una cantidad de espacio configurable asignado a la memoria caché que actualmente tiene el valor predeterminado del 2 %. Los datos se conservan en la memoria caché, pero se quitarán si se supera ese umbral. La seguridad también se mantiene desde el lago y se aplican todas las listas de control de acceso. Para obtener más información, consulte Configuración de los niveles de HDFS en Clústeres de macrodatos.

¿Se puede usar SQL Server 2019 para visualizar Azure Data Lake Store Gen2? ¿Se ocupará esta integración del permiso de nivel de carpeta?

Sí, se pueden virtualizar los datos almacenados en ADLS Gen2 mediante los niveles de HDFS. Una vez que se han montado los niveles de HDFS en ADLS Gen2, los usuarios pueden consultar los datos de HDFS y ejecutar trabajos de Spark en ellos. El almacenamiento montado aparecerá en HDFS para el clúster de macrodatos en la ubicación especificada por --mount-path. Los usuarios pueden trabajar con esa ruta de acceso de montaje como si trabajaran con un almacenamiento local. Consulte más detalles aquí: Configuración de los niveles de HDFS en el clúster de macrodatos. Para obtener más información sobre los permisos de los niveles de HDFS, consulte Administración de permisos de HDFS para Clústeres de macrodatos de SQL Server.

¿Cuál es la configuración predeterminada de alta disponibilidad y redundancia para el nodo maestro en Azure Kubernetes Service (AKS)?

El plano de control de AKS admite el Acuerdo de Nivel de Servicio de tiempo de actividad que garantiza una disponibilidad del 99,95 %. Los nodos de clúster de AKS (nodos de trabajo) usan zonas de disponibilidad. Para obtener más información, vea Zonas de disponibilidad de AKS. Una zona de disponibilidad constituye una oferta de alta disponibilidad de Azure que protege las aplicaciones y los datos de los errores en el centro de datos. AKS admite una disponibilidad del 99,9 % para clústeres que no usan zonas de disponibilidad. Para obtener más información, consulte SLA para Azure Kubernetes Service (AKS).

¿Hay alguna manera de conservar los registros del historial de trabajos de YARN y Spark?

Si reinicia Sparkhead no se perderán los registros, ya que están en HDFS. Debería seguir viendo los registros del historial de Spark desde la interfaz de usuario de /gateway/default/sparkhistory. En el caso de los registros de contenedor de Yarn, no verá esas aplicaciones en la interfaz de usuario de Yarn porque Yarn RM se reinicia, pero esos registros de Yarn siguen estando en HDFS y puede establecer un vínculo a ellos desde el servidor de historial de Spark. Siempre debe usar el servidor de historial de Spark como punto de entrada para diagnosticar las aplicaciones de Spark.

¿Hay alguna manera de desactivar la característica de almacenamiento en caché de los grupos?

De forma predeterminada, el 1 % del almacenamiento total de HDFS se reservará para el almacenamiento en caché de los datos montados. El almacenamiento en caché es una configuración global entre los montajes. Actualmente, no hay una manera expuesta de desactivarlo, pero se puede configurar el porcentaje mediante el valor hdfs-site.dfs.provided.cache.capacity.fraction. Este valor controla la fracción de la capacidad total del clúster que se puede usar para almacenar datos en caché de los almacenes proporcionados. Para modificarlo, consulte Procedimiento para configurar el clúster de macrodatos después de la implementación. Para obtener más información, consulte Configuración de los niveles de HDFS en Clústeres de macrodatos de SQL Server.

¿Cómo se programan procedimientos almacenados de SQL en un clúster de macrodatos de SQL Server 2019?

Puede usar el servicio Agente SQL Server en la instancia maestra de SQL Server del clúster de macrodatos.

¿Admite el clúster de macrodatos escenarios de datos de serie temporal nativos, como los generados por los casos de uso de IoT?

En este momento, InfluxDB en un clúster de macrodatos solo se usa para almacenar datos de supervisión recopilados en el clúster de macrodatos y no se expone como un punto de conexión externo.

¿Se puede usar la base de datos InfluxDB proporcionada como base de datos de serie temporal para los datos de los clientes?

En este momento, InfluxDB en un clúster de macrodatos solo se usa para almacenar datos de supervisión recopilados en el clúster de macrodatos y no se expone como un punto de conexión externo.

¿Cómo se agrega una base de datos al grupo de disponibilidad?

En el clúster de macrodatos, la configuración de alta disponibilidad crea un grupo de disponibilidad denominado containedag que también incluye bases de datos del sistema que se replican entre réplicas. Las bases de datos que se crean como resultado de un flujo de trabajo CREATE DATABASE o RESTORE se agregan automáticamente al grupo de disponibilidad contenido y se inicializan. Antes de SQL Server 2019 (15.0) CU2, es necesario conectarse a la instancia física del clúster de macrodatos, restaurar la base de datos y agregarla a containedag. Para obtener más información, consulte Implementación de clústeres de macrodatos de SQL Server con alta disponibilidad.

¿Se pueden configurar recursos de núcleo o memoria para componentes que se ejecutan en el clúster de macrodatos?

Actualmente, se puede establecer memoria para las instancias de SQL mediante sp_configure, igual que en SQL Server. En el caso de los núcleos, puede usar ALTER SERVER CONFIGURATION SET PROCESS AFFINITY. De forma predeterminada, los contenedores ven todas las CPU del host. Actualmente, no existe una manera de especificar los límites de recursos mediante Kubernetes. En el caso del grupo de proceso, el grupo de datos o el bloque de almacenamiento, la configuración se puede llevar a cabo mediante la instrucción EXECUTE AT DATA_SOURCE desde la instancia maestra de SQL Server.

¿Qué ocurre cuando uno de los nodos de trabajo de Kubernetes se apaga o sufre una interrupción?

Los pods que no tienen afinidad establecida con el nodo de trabajo correspondiente se moverán a otro nodo del clúster de Kubernetes, siempre y cuando haya suficientes recursos. De lo contrario, los pods no estarán disponibles, lo que provocará interrupciones.

Si se agrega un nodo al clúster de Kubernetes, ¿se reequilibra automáticamente el clúster de macrodatos?

Esta acción depende solo de Kubernetes. Aparte de la selección de ubicación de los pods mediante el uso de etiquetas de nodo, no hay ningún otro mecanismo para controlar el reequilibrio de recursos de Kubernetes desde el clúster de macrodatos.

¿Qué efecto tiene en los recursos del clúster de macrodatos el hecho de quitar un nodo del clúster de Kubernetes?

Esta acción es equivalente a cerrar el nodo de host. Hay mecanismos para organizar esto en Kubernetes mediante un proceso de intolerancia. Este procedimiento suele llevarse a cabo para la actualización o el mantenimiento de los nodos. Para obtener más información, consulte la documentación de Kubernetes sobre Tolerancias e intolerancias.

¿Controla la instancia de Hadoop incluida con el clúster de macrodatos la replicación de los datos?

Sí, el factor de replicación es una de las configuraciones disponibles para HDFS. Para obtener más información, consulte Configurar volúmenes persistentes.

¿Se superpone el clúster de macrodatos con Synapse en términos de funcionalidad e integración?

Depende de los casos de uso y de los requisitos. El clúster de macrodatos proporciona un área expuesta completa de SQL Server, además de HDFS y Spark compatible con Microsoft en el entorno local. El clúster de macrodatos permite que el cliente de SQL Server pueda integrarse en el análisis y los macrodatos. Azure Synapse es simplemente una plataforma analítica que ofrece a los clientes una experiencia de primera clase como servicio administrado en la nube, centrado en el análisis de la escalabilidad horizontal. Azure Synapse no está dirigida a una carga de trabajo operativa. El objetivo del clúster de macrodatos consiste en proporcionar escenarios analíticos de base de datos, mucho más cercanos al almacén operativo.

¿SQL Server emplea HDFS como almacenamiento en Clústeres de macrodatos de SQL Server?

Los archivos de base de datos de la instancia de SQL Server no se almacenan en HDFS, pero SQL Server puede consultar HDFS mediante una interfaz de tabla externa.

¿Cuáles son las opciones de distribución disponibles para almacenar datos en las tablas distribuidas de cada grupo de datos?

ROUND_ROBIN y REPLICATED. ROUND_ROBIN es el valor predeterminado. HASH no está disponible.

¿Incluye el clúster de macrodatos el servidor Thrift de Spark? Si es así, ¿se expone el punto de conexión ODBC para conectarse a las tablas de metastore de Hive?

Actualmente exponemos el metastore de Hive (HMS) mediante el protocolo Thrift. Hemos documentado el protocolo, pero actualmente no hemos abierto un punto de conexión ODBC.  Puede acceder a él mediante el protocolo HTTP del metastore de Hive. Para obtener más información, consulte Protocolo HTTP del metastore de Hive.

Carga de datos

¿Es posible ingerir datos de SnowFlake en un clúster de macrodatos?

SQL Server en Linux (se aplica también a la instancia maestra de SQL Server en el clúster de macrodatos) no admite el origen de datos ODBC genérico que permite instalar un controlador ODBC de terceros (SnowFlake, DB2, PostgreSQL, etc.) y consultarlo. Esta característica solo está disponible actualmente en SQL Server 2019 (15.0) en Windows. En el clúster de macrodatos, puede leer los datos a través de Spark mediante JDBC e ingerirlos en SQL Server mediante el conector de Spark MSSQL.

¿Es posible ingerir datos mediante un origen de datos ODBC personalizado en un clúster de macrodatos?

SQL Server en Linux (se aplica también a la instancia maestra de SQL Server en el clúster de macrodatos) no admite el origen de datos ODBC genérico que permite instalar un controlador ODBC de terceros (SnowFlake, DB2, PostgreSQL, etc.) y consultarlo.

¿Cómo se pueden importar datos a la misma tabla mediante CTAS de PolyBase, en lugar de crear una tabla cada vez que se ejecuta CTAS?

Puede usar el enfoque INSERT..SELECT para evitar tener que crear una tabla de cada vez.

¿Cuáles son las ventajas y las consideraciones que hay que tener en cuenta al cargar datos en el grupo de datos, en lugar de directamente en la instancia maestra como tablas locales?

Si la instancia maestra de SQL Server tiene suficientes recursos para satisfacer la carga de trabajo analítica, siempre es la opción más rápida. El grupo de datos resulta de ayuda si quiere descargar la ejecución en otras instancias de SQL para las consultas distribuidas. También puede usar el grupo de datos para ingerir datos de ejecutores de Spark en paralelo a diferentes instancias de SQL. De este modo, el rendimiento de carga para grandes conjuntos de datos generados en el Sistema de archivos distribuido de Hadoop (HDFS) será mejor que si se recurre a una única instancia de SQL Server. Aun así, es difícil saberlo, ya que podría tener varias tablas en una instancia de SQL Server e insertarlas en paralelo si quiere. El rendimiento depende de muchos factores y no hay una sola recomendación en ese sentido.

¿Cómo se puede supervisar la distribución de datos dentro de las tablas del grupo de datos?

Puede usar EXECUTE AT para consultar DMV como sys.dm_db_partition_stats a fin de obtener los datos de cada tabla local.

¿Es curl la única opción para cargar archivos en HDFS?

No, puede usar azdata bdc hdfs cp. Si proporciona el directorio raíz, el comando copiará de forma recursiva todo el árbol. Puede copiar dentro y fuera mediante este comando con tal solo cambiar la ruta de acceso de origen o de destino.

¿Cómo se pueden cargar datos en el grupo de datos?

Puede usar la biblioteca del conector de Spark MSSQL para ayudar a la ingesta de SQL y del grupo de datos. Para obtener un tutorial guiado, consulte Tutorial: Ingesta de datos en un grupo de datos de SQL Server con trabajos de Spark.

Si se dispone de una gran cantidad de datos en una ruta de acceso de red (Windows) que contiene una gran cantidad de carpetas, subcarpetas y archivos de texto, ¿cómo se cargan en HDFS en un clúster de macrodatos?

Pruebe con azdata bdc hdfs cp. Si proporciona el directorio raíz, el comando copiará de forma recursiva todo el árbol. Puede copiar dentro y fuera mediante este comando con tal solo cambiar la ruta de acceso de origen o de destino.

¿Es posible aumentar el tamaño del bloque de almacenamiento en un clúster implementado?

Actualmente no existe ninguna interfaz azdata para realizar esta operación. Puede cambiar el tamaño de las notificaciones del volumen persistente deseadas de forma manual. El cambio de tamaño es una operación compleja, por lo que se recomienda consultar Volúmenes persistentes en la documentación de Kubernetes.

Virtualización de datos

¿Cuándo se deben usar servidores vinculados en vez de PolyBase?

Consulte las principales diferencias y los casos de uso aquí: Preguntas más frecuentes de PolyBase.

¿Cuáles son los orígenes de virtualización de datos admitidos?

El clúster de macrodatos admite la virtualización de datos de orígenes ODBC (SQL Server, Oracle, MongoDB, Teradata, etc). También admite el almacenamiento por niveles de almacenes remotos, como Azure Data Lake Store Gen2 y el almacenamiento compatible con S3, así como AWS S3A y Azure Blob File System (ABFS).

¿Se puede usar PolyBase para virtualizar datos almacenados en una base de datos de Azure SQL?

Sí, se puede usar PolyBase en un clúster de macrodatos para acceder a los datos de Azure SQL Database.

¿Por qué las instrucciones CREATE TABLE incluyen la palabra clave EXTERNAL? ¿Qué hace EXTERNAL de forma diferente a la instrucción CREATE TABLE normal?

En general, la palabra clave "external" implica que los datos no están en la instancia de SQL Server. Por ejemplo, puede definir una tabla de bloque de almacenamiento sobre un directorio de HDFS. Los datos se almacenan en archivos de HDFS, no en los archivos de la base de datos, pero la tabla externa proporciona la interfaz para consultar los archivos de HDFS como una tabla relacional, como si se encontrara en la base de datos.
Este concepto de acceso a datos externos se denomina "virtualización de datos". Para obtener más información, vea Introducción a la virtualización de datos con PolyBase. Para seguir un tutorial sobre la virtualización de datos de archivos CSV en HDFS, consulte Virtualización de datos CSV del bloque de almacenamiento (clústeres de macrodatos).

¿Cuáles son las diferencias entre la virtualización de datos mediante SQL Server en ejecución en Clústeres de macrodatos de SQL Server frente a SQL Server?

¿Cómo se puede saber fácilmente si una tabla externa apunta al grupo de datos en lugar de al bloque de almacenamiento?

Para determinar el tipo de tabla externa, consulte el prefijo de ubicación del origen de datos (por ejemplo, sqlserver://, oracle://, sqlhdfs:// y sqldatapool://).

Implementación

Se ha producido un error en la implementación del clúster de macrodatos. ¿Cómo se puede ver a qué se debe?

¿Hay una lista definitiva de todo lo que se puede establecer en la configuración del clúster de macrodatos?

Todas las personalizaciones que se pueden realizar en el momento de la implementación están documentadas en Configuración de opciones de implementación de recursos y servicios de clúster. En el caso de Spark, consulte Configuración de Apache Spark y Apache Hadoop en Clústeres de macrodatos.

¿Se puede implementar SQL Server Analysis Services junto con Clústeres de macrodatos de SQL Server?

No. En concreto, SQL Server Analysis Services (SSAS) no se admite en SQL Server en Linux, por lo que tendrá que instalar una instancia de SQL Server en un servidor de Windows para ejecutar SSAS.

¿Es compatible el clúster de macrodatos con la implementación en EKS o GKS?

El clúster de macrodatos se puede ejecutar en cualquier pila de Kubernetes basada en la versión 1.13 y posteriores. Aun así, no hemos realizado validaciones específicas del clúster de macrodatos en EKS o GKS.

¿Qué versión de HDFS y de Spark se ejecuta en el clúster de macrodatos?

Las versiones que se ejecutan son Spark 2.4 y HDFS 3.2.1. Para obtener información completa sobre el software de código abierto incluido en el clúster de macrodatos, consulte Referencia de software de código abierto.

¿Cómo se instalan bibliotecas y paquetes en Spark?

Se pueden agregar paquetes al enviar el trabajo mediante los pasos que se describen en el cuaderno de ejemplo para instalar paquetes en Spark.

¿Es necesario emplear SQL Server 2019 si se quiere usar R y Python para Clústeres de macrodatos de SQL Server?

Machine Learning Services (R y Python) está disponible a partir de SQL Server 2017, así como en Clústeres de macrodatos de SQL Server. Para obtener más información, vea ¿Qué es Machine Learning Services para SQL Server con Python y R?

Licencias

¿Cómo funcionan las licencias de SQL Server para Clústeres de macrodatos de SQL Server?

Consulte la guía de licencias, ya que contiene mucha información. Para ello, descargue el PDF.
Si le interesa obtener un resumen, vea el vídeo Licencias de SQL Server: Clústeres de macrodatos | Data Exposed.

Seguridad

¿Admite el clúster de macrodatos el identificador de Microsoft Entra ([anteriormente Azure Active Directory](/entra/fundamentals/new-name))?

De momento, no.

¿Es posible conectarse a la instancia maestra del clúster de macrodatos mediante la autenticación integrada?

Sí, puede conectarse a varios servicios del clúster de macrodatos mediante la autenticación integrada (con Active Directory). Para obtener más información, consulte Implementación del clúster de macrodatos de SQL Server en el modo de Active Directory. Vea también Conceptos de seguridad para Clústeres de macrodatos.

¿Cómo se pueden agregar nuevos usuarios para varios servicios dentro del clúster de macrodatos?

En el modo de autenticación básica (nombre de usuario y contraseña), no se admite la adición de varios usuarios para los puntos de conexión del controlador, de la puerta de enlace de Knox o de HDFS. El único usuario admitido para estos puntos de conexión es la raíz. En el caso de SQL Server, puede agregar usuarios mediante Transact-SQL tal como lo haría con cualquier otra instancia de SQL Server. Si implementa un clúster de macrodatos con autenticación de AD para sus puntos de conexión, se admiten varios usuarios. Consulte aquí más información sobre cómo configurar los grupos de AD en el momento de la implementación. Para obtener más información, consulte Implementación del clúster de macrodatos de SQL Server en el modo de Active Directory.

Para que el clúster de macrodatos extraiga las imágenes de contenedor más recientes, ¿hay un intervalo IP de salida que pueda restringir?

Puede revisar las direcciones IP que usan los diversos servicios en Intervalos IP y etiquetas de servicio de Azure: nube pública. Tenga en cuenta que estas direcciones IP se giran periódicamente.
Para que el servicio de controlador extraiga las imágenes de contenedor de Microsoft Container Registry (MCR), deberá conceder acceso a las direcciones IP especificadas en la sección MicrosoftContainerRegistry. Otra opción es configurar una instancia privada de Azure Container Registry y configurar el clúster de macrodatos para extraerlas desde allí. En ese caso, deberá exponer las direcciones IP especificadas en la sección AzureContainerRegistry. Encontrará instrucciones sobre cómo hacerlo y un script en Realización de una implementación sin conexión de un clúster de macrodatos de SQL Server.

¿Puedo implementar un clúster de macrodatos en un entorno aislado?

¿Se aplica también la característica "Cifrado de Azure Storage" de forma predeterminada a clústeres de macrodatos basados en AKS?

Esto depende de las configuraciones del aprovisionador de almacenamiento dinámico en Azure Kubernetes Service (AKS). Para obtener más información, consulte Procedimientos recomendados para el almacenamiento y las copias de seguridad en Azure Kubernetes Service (AKS).

¿Se pueden girar las claves para el cifrado de SQL Server y HDFS en el clúster de macrodatos?

Sí. Para obtener más información, vea Versiones de clave en Clústeres de macrodatos.

¿Puedo rotar las contraseñas de los objetos de Active Directory generados automáticamente?

Sí, puede rotar fácilmente las contraseñas de los objetos de Active Directory generados automáticamente con una nueva característica introducida en los clústeres de macrodatos de SQL Server CU13. Para más información, vea el artículo sobre la rotación de contraseñas de AD.

Soporte técnico

¿Están implementados Spark y HDFS en los clústeres de macrodatos de SQL Server compatibles con Microsoft?

Sí, Microsoft admite todos los componentes incluidos en los clústeres de macrodatos.

¿Cuál es el modelo de compatibilidad para SparkML y Machine Learning Services de SQL Server?

La directiva de compatibilidad de Machine Learning Services de SQL Server es la misma que la de SQL Server, con la única diferencia de que cada versión principal incluye una versión en tiempo de ejecución nueva. La propia biblioteca de SparkML es software de código abierto (OSS). Empaquetamos muchos componentes de OSS en el clúster de macrodatos, lo que es compatible con Microsoft.

¿Es Red Hat Enterprise Linux 8 (RHEL8) una plataforma compatible con Clústeres de macrodatos de SQL Server?

De momento, no. Vea aquí las configuraciones probadas.

Herramientas

¿Están disponibles los cuadernos en Azure Data Studio (principalmente los cuadernos de Jupyter Notebook)?

Sí, es el mismo kernel de Jupyter, pero en Azure Data Studio.

¿Es la herramienta "azdata" de código abierto?

No, actualmente azdata no es de código abierto.

Recursos de aprendizaje

¿Qué opciones de entrenamiento del clúster de macrodatos están disponibles?