Question 1

¿Cuáles son los procedimientos recomendados en lo que respecta a las ubicaciones de archivos?

Accepted Answer

En este sentido, hay menos flexibilidad en comparación con la configuración de SQL Server en equipos sin sistema operativo en Windows o Linux. En el entorno de Kubernetes, estos artefactos se extraen y deben ser portables. Actualmente, se proporcionan dos volúmenes persistentes (para datos y registros) por pod que se pueden configurar. Para obtener más información, consulte Persistencia de datos con un clúster de macrodatos de SQL Server en Kubernetes.

Question 2

¿Es necesario realizar copias de seguridad del registro de transacciones en Clústeres de macrodatos de SQL Server?

Accepted Answer

Solo debe realizar copias de seguridad de registros para las bases de datos de usuario en la instancia maestra de SQL Server (según el modelo de recuperación o la configuración de alta disponibilidad). Las bases de datos del grupo de datos solo usan el modelo de recuperación SIMPLE. Lo mismo se aplica a las bases de datos DW* creadas para PolyBase.

Question 3

¿Cómo puedo supervisar si las consultas distribuidas usan realmente el grupo de proceso?

Accepted Answer

Puede usar las DMV de PolyBase existentes que se han mejorado para escenarios de Clústeres de macrodatos. Para obtener más información, vea Supervisión y solución de problemas de PolyBase.

Question 4

¿Es posible configurar y administrar recursos de Clústeres de macrodatos directamente a través de kubectl en el servidor de API de Kubernetes?

Accepted Answer

Aunque puede modificar parte de la configuración mediante la API de Kubernetes o kubectl, no se admite ni se recomienda. Debe ejecutar todas las operaciones de administración de Clústeres de macrodatos mediante azdata.

Question 5

¿Cómo puedo realizar una copia de seguridad de los datos almacenados en HDFS?

Accepted Answer

Puede usar cualquier solución que habilite la realización de instantáneas de almacenamiento de nivel de hardware o la copia o sincronización a través de WebHDFS. También puede usar azdata bdc hdfs cp. Para obtener más información, vea azdata bdc hdfs.

Question 6

¿Hay alguna manera de "escalar horizontalmente" un procedimiento almacenado? Por ejemplo, ¿hacer que se ejecute en el grupo de proceso?

Accepted Answer

De momento, no. Una opción es implementar SQL Server en un grupo de disponibilidad AlwaysOn. Después, puede usar réplicas secundarias legibles para ejecutar algunos procesos (por ejemplo, el entrenamiento o la puntuación de aprendizaje automático, actividades de mantenimiento, etc.).

Question 7

¿Cómo se puede escalar dinámicamente pods de un grupo?

Accepted Answer

En este momento, este no es un escenario admitido.

Question 8

¿Es posible realizar una copia de seguridad de tablas externas almacenadas en grupos de datos?

Accepted Answer

La base de datos de la instancia del grupo de datos no tiene metadatos sobre las tablas externas; es como cualquier base de datos de usuario. Puede realizar una copia de seguridad o una restauración, pero debe asegurarse de que los metadatos de la tabla externa de la base de datos de metadatos de la instancia maestra de SQL estén sincronizados para evitar resultados incoherentes.

Question 9

¿Proporciona particionamiento el grupo de datos?

Accepted Answer

El grupo de datos es un concepto de tabla distribuida. Normalmente, se hace referencia al particionamiento como un concepto de OLTP, pero esto no se admite actualmente.

Question 10

¿Cuándo se debe usar el grupo de datos o el bloque de almacenamiento para el almacenamiento de datos sin procesar?

Accepted Answer

El término "grupo" está reservado para describir una colección de servicios o aplicaciones homogéneos. Por ejemplo, el grupo de datos es un conjunto de proceso y almacenamiento de SQL Server con estado, mientras que el bloque de almacenamiento es un conjunto de servicios de HDFS y Spark. La instancia maestra de SQL Server es una instancia única o bien varias instancias que se pueden configurar en un grupo de disponibilidad. La instancia maestra de SQL Server es una instancia normal de SQL Server en Linux en la que se puede usar cualquier característica disponible en Linux. Debe empezar primero con el modelo de datos, las entidades y los servicios o aplicaciones que funcionarán principalmente en la entidad. No es necesario almacenar todos los datos en un solo lugar, como en el caso de SQL Server, HDFS o un grupo de datos. De acuerdo con el análisis de datos, es posible que almacene la mayoría de los datos en HDFS, que los procese a un formato más eficaz y que los exponga a otros servicios. Los datos restantes se almacenarán en la instancia maestra de SQL.

Question 11

¿Admite el clúster de macrodatos de SQL Server los cálculos y las bibliotecas de aprendizaje profundo basados en GPU (PyTorch, Keras, bibliotecas de imágenes específicas, etc.)?

Accepted Answer

En este momento, este no es un escenario admitido.

Question 12

¿Hay alguna manera de configurar varias notificaciones de volumen para un grupo?

Accepted Answer

Cada pod solo puede tener dos volúmenes persistentes. Puede extraer el volumen en el nivel del sistema operativo y usarlo para el almacenamiento persistente. Por ejemplo, puede crear una partición del sistema operativo RAID 0 mediante varios discos y usarla para el volumen persistente mediante un aprovisionador de almacenamiento local. No existe ninguna manera de usar más volúmenes persistentes por pod en la actualidad. Los volúmenes persistentes se asignan a directorios dentro del contenedor y esto es fijo. Para obtener más información sobre los volúmenes persistentes, vea Volúmenes persistentes en la documentación de Kubernetes.

Question 13

Si se configuran varios proveedores y varios discos, ¿se actualizará la configuración de HDFS con todas las notificaciones del volumen de datos?

Accepted Answer

Puede configurar el bloque de almacenamiento para que use una clase de almacenamiento específica en el momento de la implementación. Consulte Persistencia de los datos con un clúster de macrodatos de SQL Server en Kubernetes.

Question 14

¿Cuáles son las opciones para acceder al almacenamiento basado en Ceph?

Accepted Answer

Los niveles de HDFS permiten realizar la integración de forma transparente con protocolos basados en S3. Para obtener más información, consulte Cómo montar S3 para los niveles de HDFS en un clúster de macrodatos.

Question 15

¿Se conservan los datos de HDFS después de una actualización?

Accepted Answer

Sí, los datos se conservan porque están respaldos por volúmenes persistentes y la actualización solo implementa pods existentes con nuevas imágenes.

Question 16

¿Cómo controlan la caché los niveles de HDFS?

Accepted Answer

Cuando se usan los niveles de HDFS, los datos se almacenan en caché en la instancia de HDFS local que se ejecuta en el clúster de macrodatos para permitir que los usuarios se conecten a grandes lagos de datos sin necesidad de reunir todos los datos. Hay una cantidad de espacio configurable asignado a la memoria caché que actualmente tiene el valor predeterminado del 2 %. Los datos se conservan en la memoria caché, pero se quitarán si se supera ese umbral. La seguridad también se mantiene desde el lago y se aplican todas las listas de control de acceso. Para obtener más información, consulte Configuración de los niveles de HDFS en Clústeres de macrodatos.

Question 17

¿Se puede usar SQL Server 2019 para visualizar Azure Data Lake Store Gen2? ¿Se ocupará esta integración del permiso de nivel de carpeta?

Accepted Answer

Sí, se pueden virtualizar los datos almacenados en ADLS Gen2 mediante los niveles de HDFS. Una vez que se han montado los niveles de HDFS en ADLS Gen2, los usuarios pueden consultar los datos de HDFS y ejecutar trabajos de Spark en ellos. El almacenamiento montado aparecerá en HDFS para el clúster de macrodatos en la ubicación especificada por --mount-path. Los usuarios pueden trabajar con esa ruta de acceso de montaje como si trabajaran con un almacenamiento local. Consulte más detalles aquí: Configuración de los niveles de HDFS en el clúster de macrodatos. Para obtener más información sobre los permisos de los niveles de HDFS, consulte Administración de permisos de HDFS para Clústeres de macrodatos de SQL Server.

Question 18

¿Cuál es la configuración predeterminada de alta disponibilidad y redundancia para el nodo maestro en Azure Kubernetes Service (AKS)?

Accepted Answer

El plano de control de AKS admite el Acuerdo de Nivel de Servicio de tiempo de actividad que garantiza una disponibilidad del 99,95 %. Los nodos de clúster de AKS (nodos de trabajo) usan zonas de disponibilidad. Para obtener más información, vea Zonas de disponibilidad de AKS. Una zona de disponibilidad constituye una oferta de alta disponibilidad de Azure que protege las aplicaciones y los datos de los errores en el centro de datos. AKS admite una disponibilidad del 99,9 % para clústeres que no usan zonas de disponibilidad. Para obtener más información, consulte SLA para Azure Kubernetes Service (AKS).

Question 19

¿Hay alguna manera de conservar los registros del historial de trabajos de YARN y Spark?

Accepted Answer

Si reinicia Sparkhead no se perderán los registros, ya que están en HDFS. Debería seguir viendo los registros del historial de Spark desde la interfaz de usuario de /gateway/default/sparkhistory. En el caso de los registros de contenedor de Yarn, no verá esas aplicaciones en la interfaz de usuario de Yarn porque Yarn RM se reinicia, pero esos registros de Yarn siguen estando en HDFS y puede establecer un vínculo a ellos desde el servidor de historial de Spark. Siempre debe usar el servidor de historial de Spark como punto de entrada para diagnosticar las aplicaciones de Spark.

Question 20

¿Hay alguna manera de desactivar la característica de almacenamiento en caché de los grupos?

Accepted Answer

De forma predeterminada, el 1 % del almacenamiento total de HDFS se reservará para el almacenamiento en caché de los datos montados. El almacenamiento en caché es una configuración global entre los montajes. Actualmente, no hay una manera expuesta de desactivarlo, pero se puede configurar el porcentaje mediante el valor hdfs-site.dfs.provided.cache.capacity.fraction. Este valor controla la fracción de la capacidad total del clúster que se puede usar para almacenar datos en caché de los almacenes proporcionados. Para modificarlo, consulte Procedimiento para configurar el clúster de macrodatos después de la implementación. Para obtener más información, consulte Configuración de los niveles de HDFS en Clústeres de macrodatos de SQL Server.

Question 21

¿Cómo se programan procedimientos almacenados de SQL en un clúster de macrodatos de SQL Server 2019?

Accepted Answer

Puede usar el servicio Agente SQL Server en la instancia maestra de SQL Server del clúster de macrodatos.

Question 22

¿Admite el clúster de macrodatos escenarios de datos de serie temporal nativos, como los generados por los casos de uso de IoT?

Accepted Answer

En este momento, InfluxDB en un clúster de macrodatos solo se usa para almacenar datos de supervisión recopilados en el clúster de macrodatos y no se expone como un punto de conexión externo.

Question 23

¿Se puede usar la base de datos InfluxDB proporcionada como base de datos de serie temporal para los datos de los clientes?

Accepted Answer

En este momento, InfluxDB en un clúster de macrodatos solo se usa para almacenar datos de supervisión recopilados en el clúster de macrodatos y no se expone como un punto de conexión externo.

Question 24

¿Cómo se agrega una base de datos al grupo de disponibilidad?

Accepted Answer

En el clúster de macrodatos, la configuración de alta disponibilidad crea un grupo de disponibilidad denominado containedag que también incluye bases de datos del sistema que se replican entre réplicas. Las bases de datos que se crean como resultado de un flujo de trabajo CREATE DATABASE o RESTORE se agregan automáticamente al grupo de disponibilidad contenido y se inicializan. Antes de SQL Server 2019 (15.0) CU2, es necesario conectarse a la instancia física del clúster de macrodatos, restaurar la base de datos y agregarla a containedag. Para obtener más información, consulte Implementación de clústeres de macrodatos de SQL Server con alta disponibilidad.

Question 25

¿Se pueden configurar recursos de núcleo o memoria para componentes que se ejecutan en el clúster de macrodatos?

Accepted Answer

Actualmente, se puede establecer memoria para las instancias de SQL mediante sp_configure, igual que en SQL Server. En el caso de los núcleos, puede usar ALTER SERVER CONFIGURATION SET PROCESS AFFINITY. De forma predeterminada, los contenedores ven todas las CPU del host. Actualmente, no existe una manera de especificar los límites de recursos mediante Kubernetes. En el caso del grupo de proceso, el grupo de datos o el bloque de almacenamiento, la configuración se puede llevar a cabo mediante la instrucción EXECUTE AT DATA_SOURCE desde la instancia maestra de SQL Server.

Question 26

¿Qué ocurre cuando uno de los nodos de trabajo de Kubernetes se apaga o sufre una interrupción?

Accepted Answer

Los pods que no tienen afinidad establecida con el nodo de trabajo correspondiente se moverán a otro nodo del clúster de Kubernetes, siempre y cuando haya suficientes recursos. De lo contrario, los pods no estarán disponibles, lo que provocará interrupciones.

Question 27

Si se agrega un nodo al clúster de Kubernetes, ¿se reequilibra automáticamente el clúster de macrodatos?

Accepted Answer

Esta acción depende solo de Kubernetes. Aparte de la selección de ubicación de los pods mediante el uso de etiquetas de nodo, no hay ningún otro mecanismo para controlar el reequilibrio de recursos de Kubernetes desde el clúster de macrodatos.

Question 28

¿Qué efecto tiene en los recursos del clúster de macrodatos el hecho de quitar un nodo del clúster de Kubernetes?

Accepted Answer

Esta acción es equivalente a cerrar el nodo de host. Hay mecanismos para organizar esto en Kubernetes mediante un proceso de intolerancia. Este procedimiento suele llevarse a cabo para la actualización o el mantenimiento de los nodos. Para obtener más información, consulte la documentación de Kubernetes sobre Tolerancias e intolerancias.

Question 29

¿Controla la instancia de Hadoop incluida con el clúster de macrodatos la replicación de los datos?

Accepted Answer

Sí, el factor de replicación es una de las configuraciones disponibles para HDFS. Para obtener más información, consulte Configurar volúmenes persistentes.

Question 30

¿Se superpone el clúster de macrodatos con Synapse en términos de funcionalidad e integración?

Accepted Answer

Depende de los casos de uso y de los requisitos. El clúster de macrodatos proporciona un área expuesta completa de SQL Server, además de HDFS y Spark compatible con Microsoft en el entorno local. El clúster de macrodatos permite que el cliente de SQL Server pueda integrarse en el análisis y los macrodatos. Azure Synapse es simplemente una plataforma analítica que ofrece a los clientes una experiencia de primera clase como servicio administrado en la nube, centrado en el análisis de la escalabilidad horizontal. Azure Synapse no está dirigida a una carga de trabajo operativa. El objetivo del clúster de macrodatos consiste en proporcionar escenarios analíticos de base de datos, mucho más cercanos al almacén operativo.

Question 31

¿SQL Server emplea HDFS como almacenamiento en Clústeres de macrodatos de SQL Server?

Accepted Answer

Los archivos de base de datos de la instancia de SQL Server no se almacenan en HDFS, pero SQL Server puede consultar HDFS mediante una interfaz de tabla externa.

Question 32

¿Cuáles son las opciones de distribución disponibles para almacenar datos en las tablas distribuidas de cada grupo de datos?

Accepted Answer

ROUND_ROBIN y REPLICATED. ROUND_ROBIN es el valor predeterminado. HASH no está disponible.

Question 33

¿Incluye el clúster de macrodatos el servidor Thrift de Spark? Si es así, ¿se expone el punto de conexión ODBC para conectarse a las tablas de metastore de Hive?

Accepted Answer

Actualmente exponemos el metastore de Hive (HMS) mediante el protocolo Thrift. Hemos documentado el protocolo, pero actualmente no hemos abierto un punto de conexión ODBC. Puede acceder a él mediante el protocolo HTTP del metastore de Hive. Para obtener más información, consulte Protocolo HTTP del metastore de Hive.

Question 34

¿Es posible ingerir datos de SnowFlake en un clúster de macrodatos?

Accepted Answer

SQL Server en Linux (se aplica también a la instancia maestra de SQL Server en el clúster de macrodatos) no admite el origen de datos ODBC genérico que permite instalar un controlador ODBC de terceros (SnowFlake, DB2, PostgreSQL, etc.) y consultarlo. Esta característica solo está disponible actualmente en SQL Server 2019 (15.0) en Windows. En el clúster de macrodatos, puede leer los datos a través de Spark mediante JDBC e ingerirlos en SQL Server mediante el conector de Spark MSSQL.

Question 35

¿Es posible ingerir datos mediante un origen de datos ODBC personalizado en un clúster de macrodatos?

Accepted Answer

SQL Server en Linux (se aplica también a la instancia maestra de SQL Server en el clúster de macrodatos) no admite el origen de datos ODBC genérico que permite instalar un controlador ODBC de terceros (SnowFlake, DB2, PostgreSQL, etc.) y consultarlo.

Question 36

¿Cómo se pueden importar datos a la misma tabla mediante CTAS de PolyBase, en lugar de crear una tabla cada vez que se ejecuta CTAS?

Accepted Answer

Puede usar el enfoque INSERT..SELECT para evitar tener que crear una tabla de cada vez.

Question 37

¿Cuáles son las ventajas y las consideraciones que hay que tener en cuenta al cargar datos en el grupo de datos, en lugar de directamente en la instancia maestra como tablas locales?

Accepted Answer

Si la instancia maestra de SQL Server tiene suficientes recursos para satisfacer la carga de trabajo analítica, siempre es la opción más rápida. El grupo de datos resulta de ayuda si quiere descargar la ejecución en otras instancias de SQL para las consultas distribuidas. También puede usar el grupo de datos para ingerir datos de ejecutores de Spark en paralelo a diferentes instancias de SQL. De este modo, el rendimiento de carga para grandes conjuntos de datos generados en el Sistema de archivos distribuido de Hadoop (HDFS) será mejor que si se recurre a una única instancia de SQL Server. Aun así, es difícil saberlo, ya que podría tener varias tablas en una instancia de SQL Server e insertarlas en paralelo si quiere. El rendimiento depende de muchos factores y no hay una sola recomendación en ese sentido.

Question 38

¿Cómo se puede supervisar la distribución de datos dentro de las tablas del grupo de datos?

Accepted Answer

Puede usar EXECUTE AT para consultar DMV como sys.dm_db_partition_stats a fin de obtener los datos de cada tabla local.

Question 39

¿Es curl la única opción para cargar archivos en HDFS?

Accepted Answer

No, puede usar azdata bdc hdfs cp. Si proporciona el directorio raíz, el comando copiará de forma recursiva todo el árbol. Puede copiar dentro y fuera mediante este comando con tal solo cambiar la ruta de acceso de origen o de destino.

Question 40

¿Cómo se pueden cargar datos en el grupo de datos?

Accepted Answer

Puede usar la biblioteca del conector de Spark MSSQL para ayudar a la ingesta de SQL y del grupo de datos. Para obtener un tutorial guiado, consulte Tutorial: Ingesta de datos en un grupo de datos de SQL Server con trabajos de Spark.

Question 41

Si se dispone de una gran cantidad de datos en una ruta de acceso de red (Windows) que contiene una gran cantidad de carpetas, subcarpetas y archivos de texto, ¿cómo se cargan en HDFS en un clúster de macrodatos?

Accepted Answer

Pruebe con azdata bdc hdfs cp. Si proporciona el directorio raíz, el comando copiará de forma recursiva todo el árbol. Puede copiar dentro y fuera mediante este comando con tal solo cambiar la ruta de acceso de origen o de destino.

Question 42

¿Es posible aumentar el tamaño del bloque de almacenamiento en un clúster implementado?

Accepted Answer

Actualmente no existe ninguna interfaz azdata para realizar esta operación. Puede cambiar el tamaño de las notificaciones del volumen persistente deseadas de forma manual. El cambio de tamaño es una operación compleja, por lo que se recomienda consultar Volúmenes persistentes en la documentación de Kubernetes.

Question 43

¿Cuándo se deben usar servidores vinculados en vez de PolyBase?

Accepted Answer

Consulte las principales diferencias y los casos de uso aquí: Preguntas más frecuentes de PolyBase.

Question 44

¿Cuáles son los orígenes de virtualización de datos admitidos?

Accepted Answer

El clúster de macrodatos admite la virtualización de datos de orígenes ODBC (SQL Server, Oracle, MongoDB, Teradata, etc). También admite el almacenamiento por niveles de almacenes remotos, como Azure Data Lake Store Gen2 y el almacenamiento compatible con S3, así como AWS S3A y Azure Blob File System (ABFS).

Question 45

¿Se puede usar PolyBase para virtualizar datos almacenados en una base de datos de Azure SQL?

Accepted Answer

Sí, se puede usar PolyBase en un clúster de macrodatos para acceder a los datos de Azure SQL Database.

Question 46

¿Por qué las instrucciones CREATE TABLE incluyen la palabra clave EXTERNAL? ¿Qué hace EXTERNAL de forma diferente a la instrucción CREATE TABLE normal?

Accepted Answer

En general, la palabra clave "external" implica que los datos no están en la instancia de SQL Server. Por ejemplo, puede definir una tabla de bloque de almacenamiento sobre un directorio de HDFS. Los datos se almacenan en archivos de HDFS, no en los archivos de la base de datos, pero la tabla externa proporciona la interfaz para consultar los archivos de HDFS como una tabla relacional, como si se encontrara en la base de datos.
Este concepto de acceso a datos externos se denomina "virtualización de datos". Para obtener más información, vea Introducción a la virtualización de datos con PolyBase. Para seguir un tutorial sobre la virtualización de datos de archivos CSV en HDFS, consulte Virtualización de datos CSV del bloque de almacenamiento (clústeres de macrodatos).

Question 47

¿Cuáles son las diferencias entre la virtualización de datos mediante SQL Server en ejecución en Clústeres de macrodatos de SQL Server frente a SQL Server?

Accepted Answer

Para ver una comparación, consulte PolyBase en Clústeres de macrodatos frente a PolyBase en instancias independientes.

Question 48

¿Cómo se puede saber fácilmente si una tabla externa apunta al grupo de datos en lugar de al bloque de almacenamiento?

Accepted Answer

Para determinar el tipo de tabla externa, consulte el prefijo de ubicación del origen de datos (por ejemplo, sqlserver://, oracle://, sqlhdfs:// y sqldatapool://).

Question 49

Se ha producido un error en la implementación del clúster de macrodatos. ¿Cómo se puede ver a qué se debe?

Accepted Answer

Consulte Administración de Clústeres de macrodatos de SQL Server con cuadernos de Azure Data Studio. Consulte también los temas de solución de problemas en Solución de problemas de Kubernetes.

Question 50

¿Hay una lista definitiva de todo lo que se puede establecer en la configuración del clúster de macrodatos?

Accepted Answer

Todas las personalizaciones que se pueden realizar en el momento de la implementación están documentadas en Configuración de opciones de implementación de recursos y servicios de clúster. En el caso de Spark, consulte Configuración de Apache Spark y Apache Hadoop en Clústeres de macrodatos.

Question 51

¿Se puede implementar SQL Server Analysis Services junto con Clústeres de macrodatos de SQL Server?

Accepted Answer

No. En concreto, SQL Server Analysis Services (SSAS) no se admite en SQL Server en Linux, por lo que tendrá que instalar una instancia de SQL Server en un servidor de Windows para ejecutar SSAS.

Question 52

¿Es compatible el clúster de macrodatos con la implementación en EKS o GKS?

Accepted Answer

El clúster de macrodatos se puede ejecutar en cualquier pila de Kubernetes basada en la versión 1.13 y posteriores. Aun así, no hemos realizado validaciones específicas del clúster de macrodatos en EKS o GKS.

Question 53

¿Qué versión de HDFS y de Spark se ejecuta en el clúster de macrodatos?

Accepted Answer

Las versiones que se ejecutan son Spark 2.4 y HDFS 3.2.1. Para obtener información completa sobre el software de código abierto incluido en el clúster de macrodatos, consulte Referencia de software de código abierto.

Question 54

¿Cómo se instalan bibliotecas y paquetes en Spark?

Accepted Answer

Se pueden agregar paquetes al enviar el trabajo mediante los pasos que se describen en el cuaderno de ejemplo para instalar paquetes en Spark.

Question 55

¿Es necesario emplear SQL Server 2019 si se quiere usar R y Python para Clústeres de macrodatos de SQL Server?

Accepted Answer

Machine Learning Services (R y Python) está disponible a partir de SQL Server 2017, así como en Clústeres de macrodatos de SQL Server. Para obtener más información, vea ¿Qué es Machine Learning Services para SQL Server con Python y R?

Question 56

¿Cómo funcionan las licencias de SQL Server para Clústeres de macrodatos de SQL Server?

Accepted Answer

Consulte la guía de licencias, ya que contiene mucha información. Para ello, descargue el PDF.
Si le interesa obtener un resumen, vea el vídeo Licencias de SQL Server: Clústeres de macrodatos | Data Exposed.

Question 57

¿Admite el clúster de macrodatos el identificador de Microsoft Entra ([anteriormente Azure Active Directory](/entra/fundamentals/new-name))?

Accepted Answer

De momento, no.

Question 58

¿Es posible conectarse a la instancia maestra del clúster de macrodatos mediante la autenticación integrada?

Accepted Answer

Sí, puede conectarse a varios servicios del clúster de macrodatos mediante la autenticación integrada (con Active Directory). Para obtener más información, consulte Implementación del clúster de macrodatos de SQL Server en el modo de Active Directory. Vea también Conceptos de seguridad para Clústeres de macrodatos.

Question 59

¿Cómo se pueden agregar nuevos usuarios para varios servicios dentro del clúster de macrodatos?

Accepted Answer

En el modo de autenticación básica (nombre de usuario y contraseña), no se admite la adición de varios usuarios para los puntos de conexión del controlador, de la puerta de enlace de Knox o de HDFS. El único usuario admitido para estos puntos de conexión es la raíz. En el caso de SQL Server, puede agregar usuarios mediante Transact-SQL tal como lo haría con cualquier otra instancia de SQL Server. Si implementa un clúster de macrodatos con autenticación de AD para sus puntos de conexión, se admiten varios usuarios. Consulte aquí más información sobre cómo configurar los grupos de AD en el momento de la implementación. Para obtener más información, consulte Implementación del clúster de macrodatos de SQL Server en el modo de Active Directory.

Question 60

Para que el clúster de macrodatos extraiga las imágenes de contenedor más recientes, ¿hay un intervalo IP de salida que pueda restringir?

Accepted Answer

Puede revisar las direcciones IP que usan los diversos servicios en Intervalos IP y etiquetas de servicio de Azure: nube pública. Tenga en cuenta que estas direcciones IP se giran periódicamente.
Para que el servicio de controlador extraiga las imágenes de contenedor de Microsoft Container Registry (MCR), deberá conceder acceso a las direcciones IP especificadas en la sección MicrosoftContainerRegistry. Otra opción es configurar una instancia privada de Azure Container Registry y configurar el clúster de macrodatos para extraerlas desde allí. En ese caso, deberá exponer las direcciones IP especificadas en la sección AzureContainerRegistry. Encontrará instrucciones sobre cómo hacerlo y un script en Realización de una implementación sin conexión de un clúster de macrodatos de SQL Server.

Question 61

¿Puedo implementar un clúster de macrodatos en un entorno aislado?

Accepted Answer

Sí. Encontrará más información en Realización de una implementación sin conexión de un clúster de macrodatos de SQL Server.

Question 62

¿Se aplica también la característica "Cifrado de Azure Storage" de forma predeterminada a clústeres de macrodatos basados en AKS?

Accepted Answer

Esto depende de las configuraciones del aprovisionador de almacenamiento dinámico en Azure Kubernetes Service (AKS). Para obtener más información, consulte Procedimientos recomendados para el almacenamiento y las copias de seguridad en Azure Kubernetes Service (AKS).

Question 63

¿Se pueden girar las claves para el cifrado de SQL Server y HDFS en el clúster de macrodatos?

Accepted Answer

Sí. Para obtener más información, vea Versiones de clave en Clústeres de macrodatos.

Question 64

¿Puedo rotar las contraseñas de los objetos de Active Directory generados automáticamente?

Accepted Answer

Sí, puede rotar fácilmente las contraseñas de los objetos de Active Directory generados automáticamente con una nueva característica introducida en los clústeres de macrodatos de SQL Server CU13. Para más información, vea el artículo sobre la rotación de contraseñas de AD.

Compartir vía

Preguntas más frecuentes sobre los clústeres de macrodatos de SQL Server

Procedimientos recomendados

¿Cuáles son los procedimientos recomendados en lo que respecta a las ubicaciones de archivos?

¿Es necesario realizar copias de seguridad del registro de transacciones en Clústeres de macrodatos de SQL Server?

¿Cómo puedo supervisar si las consultas distribuidas usan realmente el grupo de proceso?

¿Es posible configurar y administrar recursos de Clústeres de macrodatos directamente a través de kubectl en el servidor de API de Kubernetes?

¿Cómo puedo realizar una copia de seguridad de los datos almacenados en HDFS?

Conceptos y funcionalidades

¿Hay alguna manera de "escalar horizontalmente" un procedimiento almacenado? Por ejemplo, ¿hacer que se ejecute en el grupo de proceso?

¿Cómo se puede escalar dinámicamente pods de un grupo?

¿Es posible realizar una copia de seguridad de tablas externas almacenadas en grupos de datos?

¿Proporciona particionamiento el grupo de datos?

¿Cuándo se debe usar el grupo de datos o el bloque de almacenamiento para el almacenamiento de datos sin procesar?

¿Admite el clúster de macrodatos de SQL Server los cálculos y las bibliotecas de aprendizaje profundo basados en GPU (PyTorch, Keras, bibliotecas de imágenes específicas, etc.)?

¿Hay alguna manera de configurar varias notificaciones de volumen para un grupo?

Si se configuran varios proveedores y varios discos, ¿se actualizará la configuración de HDFS con todas las notificaciones del volumen de datos?

¿Cuáles son las opciones para acceder al almacenamiento basado en Ceph?

¿Se conservan los datos de HDFS después de una actualización?

¿Cómo controlan la caché los niveles de HDFS?

¿Se puede usar SQL Server 2019 para visualizar Azure Data Lake Store Gen2? ¿Se ocupará esta integración del permiso de nivel de carpeta?

¿Cuál es la configuración predeterminada de alta disponibilidad y redundancia para el nodo maestro en Azure Kubernetes Service (AKS)?

¿Hay alguna manera de conservar los registros del historial de trabajos de YARN y Spark?

¿Hay alguna manera de desactivar la característica de almacenamiento en caché de los grupos?

¿Cómo se programan procedimientos almacenados de SQL en un clúster de macrodatos de SQL Server 2019?

¿Admite el clúster de macrodatos escenarios de datos de serie temporal nativos, como los generados por los casos de uso de IoT?

¿Se puede usar la base de datos InfluxDB proporcionada como base de datos de serie temporal para los datos de los clientes?

¿Cómo se agrega una base de datos al grupo de disponibilidad?

¿Se pueden configurar recursos de núcleo o memoria para componentes que se ejecutan en el clúster de macrodatos?

¿Qué ocurre cuando uno de los nodos de trabajo de Kubernetes se apaga o sufre una interrupción?

Si se agrega un nodo al clúster de Kubernetes, ¿se reequilibra automáticamente el clúster de macrodatos?

¿Qué efecto tiene en los recursos del clúster de macrodatos el hecho de quitar un nodo del clúster de Kubernetes?

¿Controla la instancia de Hadoop incluida con el clúster de macrodatos la replicación de los datos?

¿Se superpone el clúster de macrodatos con Synapse en términos de funcionalidad e integración?

¿SQL Server emplea HDFS como almacenamiento en Clústeres de macrodatos de SQL Server?

¿Cuáles son las opciones de distribución disponibles para almacenar datos en las tablas distribuidas de cada grupo de datos?

¿Incluye el clúster de macrodatos el servidor Thrift de Spark? Si es así, ¿se expone el punto de conexión ODBC para conectarse a las tablas de metastore de Hive?

Carga de datos

¿Es posible ingerir datos de SnowFlake en un clúster de macrodatos?

¿Es posible ingerir datos mediante un origen de datos ODBC personalizado en un clúster de macrodatos?

¿Cómo se pueden importar datos a la misma tabla mediante CTAS de PolyBase, en lugar de crear una tabla cada vez que se ejecuta CTAS?

¿Cuáles son las ventajas y las consideraciones que hay que tener en cuenta al cargar datos en el grupo de datos, en lugar de directamente en la instancia maestra como tablas locales?

¿Cómo se puede supervisar la distribución de datos dentro de las tablas del grupo de datos?

¿Es curl la única opción para cargar archivos en HDFS?

¿Cómo se pueden cargar datos en el grupo de datos?

Si se dispone de una gran cantidad de datos en una ruta de acceso de red (Windows) que contiene una gran cantidad de carpetas, subcarpetas y archivos de texto, ¿cómo se cargan en HDFS en un clúster de macrodatos?

¿Es posible aumentar el tamaño del bloque de almacenamiento en un clúster implementado?

Virtualización de datos

¿Cuándo se deben usar servidores vinculados en vez de PolyBase?

¿Cuáles son los orígenes de virtualización de datos admitidos?

¿Se puede usar PolyBase para virtualizar datos almacenados en una base de datos de Azure SQL?

¿Por qué las instrucciones CREATE TABLE incluyen la palabra clave EXTERNAL? ¿Qué hace EXTERNAL de forma diferente a la instrucción CREATE TABLE normal?

¿Cuáles son las diferencias entre la virtualización de datos mediante SQL Server en ejecución en Clústeres de macrodatos de SQL Server frente a SQL Server?

¿Cómo se puede saber fácilmente si una tabla externa apunta al grupo de datos en lugar de al bloque de almacenamiento?

Implementación

Se ha producido un error en la implementación del clúster de macrodatos. ¿Cómo se puede ver a qué se debe?

¿Hay una lista definitiva de todo lo que se puede establecer en la configuración del clúster de macrodatos?

¿Se puede implementar SQL Server Analysis Services junto con Clústeres de macrodatos de SQL Server?

¿Es compatible el clúster de macrodatos con la implementación en EKS o GKS?

¿Qué versión de HDFS y de Spark se ejecuta en el clúster de macrodatos?

¿Cómo se instalan bibliotecas y paquetes en Spark?

¿Es necesario emplear SQL Server 2019 si se quiere usar R y Python para Clústeres de macrodatos de SQL Server?

Licencias

¿Cómo funcionan las licencias de SQL Server para Clústeres de macrodatos de SQL Server?

Seguridad

¿Admite el clúster de macrodatos el identificador de Microsoft Entra ([anteriormente Azure Active Directory](/entra/fundamentals/new-name))?

¿Es posible conectarse a la instancia maestra del clúster de macrodatos mediante la autenticación integrada?

¿Cómo se pueden agregar nuevos usuarios para varios servicios dentro del clúster de macrodatos?

Para que el clúster de macrodatos extraiga las imágenes de contenedor más recientes, ¿hay un intervalo IP de salida que pueda restringir?

¿Puedo implementar un clúster de macrodatos en un entorno aislado?

¿Se aplica también la característica "Cifrado de Azure Storage" de forma predeterminada a clústeres de macrodatos basados en AKS?

¿Se pueden girar las claves para el cifrado de SQL Server y HDFS en el clúster de macrodatos?

¿Puedo rotar las contraseñas de los objetos de Active Directory generados automáticamente?

Soporte técnico

¿Están implementados Spark y HDFS en los clústeres de macrodatos de SQL Server compatibles con Microsoft?

¿Cuál es el modelo de compatibilidad para SparkML y Machine Learning Services de SQL Server?

¿Es Red Hat Enterprise Linux 8 (RHEL8) una plataforma compatible con Clústeres de macrodatos de SQL Server?

Herramientas

¿Están disponibles los cuadernos en Azure Data Studio (principalmente los cuadernos de Jupyter Notebook)?

¿Es la herramienta "azdata" de código abierto?