Question 1

Quelles sont les bonnes pratiques recommandées pour les emplacements des fichiers ?

Accepted Answer

Il y a moins de flexibilité en comparaison de la configuration de SQL Server sur des ordinateurs nus sur Windows ou Linux. Dans l’environnement Kubernetes, ces artefacts sont abstraits et doivent être portables. Actuellement, 2 volumes persistants, un pour les données et un pour les journaux, sont fournis pour chaque pod et peuvent être configurés. Pour plus d’informations, consultez Persistance des données avec un cluster Big Data SQL Server sur Kubernetes.

Question 2

Est-ce que je dois effectuer des sauvegardes des journaux des transactions sur Clusters Big Data SQL Server ?

Accepted Answer

Vous devez effectuer des sauvegardes des journaux seulement pour les bases de données utilisateur dans l’instance maître SQL Server (en fonction du modèle de récupération ou de la configuration de la haute disponibilité). Les bases de données du pool de données utilisent seulement le modèle de récupération SIMPLE. Il en va de même pour les bases de données DW* créées pour PolyBase.

Question 3

Comment savoir si les requêtes distribuées utilisent réellement le pool de calcul ?

Accepted Answer

Vous pouvez utiliser les vues de gestion dynamiques existantes de PolyBase, qui ont été améliorées pour les scénarios de Cluster Big Data. Pour plus d’informations, consultez Superviser et résoudre les problèmes de PolyBase.

Question 4

Est-il possible de configurer et de gérer des ressources de Cluster Big Data directement via kubectl sur le serveur d’API Kubernetes ?

Accepted Answer

Même si vous pouvez modifier certains paramètres en utilisant l’API Kubernetes ou kubectl, ce n’est pas pris en charge ni recommandé. Vous devez effectuer toutes les opérations de gestion de Cluster Big Data via azdata.

Question 5

Comment sauvegarder des données stockées dans HDFS ?

Accepted Answer

Vous pouvez utiliser les solutions qui permettent la capture instantanée du stockage au niveau du matériel ou la copie/synchronisation via webHDFS. Vous pouvez aussi utiliser azdata bdc hdfs cp. Pour plus d’informations, consultez azdata bdc hdfs.

Question 6

Existe-t-il un moyen d’effectuer un « scale-out » d’une procédure stockée ? Par exemple, faire en sorte qu’elle s’exécute sur un pool de calcul ?

Accepted Answer

Pas pour l'instant. Une option est de déployer SQL Server dans un groupe de disponibilité Always On. Vous pouvez ensuite utiliser un ou plusieurs réplicas secondaires accessibles en lecture pour exécuter certains processus (par exemple de l’entraînement/scoring pour du machine learning, des activités de maintenance, etc.).

Question 7

Comment mettre à l’échelle dynamiquement les pods d’un pool ?

Accepted Answer

Ce scénario n’est pas pris en charge pour l’instant.

Question 8

Est-il possible de sauvegarder des tables externes stockées dans des pools de données ?

Accepted Answer

La base de données de l’instance du pool de données n’a pas de métadonnées sur les tables externes : elle est similaire à une base de données utilisateur. Vous pouvez effectuer des sauvegardes/restaurations, mais pour éviter des résultats incohérents, vous devez vérifier que les métadonnées des tables externes dans la base de données de métadonnées de l’instance maître SQL sont synchronisées.

Question 9

Le pool de données permet-il le partitionnement ?

Accepted Answer

Le pool de données est un concept de table distribuée. Le partitionnement est généralement considéré comme un concept d’OLTP : ce n’est actuellement pas pris en charge.

Question 10

Quand utiliser le pool de données ou le pool de stockage pour le stockage de données brutes ?

Accepted Answer

Le terme « pool » est réservé pour décrire une collection de services ou d’applications homogènes. Par exemple, un pool de données est un ensemble de ressources de calcul et de stockage SQL Server avec état, et un pool de stockage est un ensemble de services HDFS et Spark. L’instance maître SQL Server est une seule instance unique ou plusieurs instances qui peuvent être configurées dans un groupe de disponibilité. L’instance maître SQL Server est une instance SQL Server normale sur Linux, et vous pouvez y utiliser n’importe quelle fonctionnalité disponible sur Linux. Commencez par le modèle de données, les entités et les services/applications qui vont effectuer des opérations principalement sur l’entité. Toutes les données ne doivent pas nécessairement être stockées à un même emplacement, comme SQL Server ou HDFS, ou un pool de données. En fonction de l’analyse des données, il est possible de stocker la plupart des données dans HDFS, de traiter les données à un format plus efficace et de les exposer à d’autres services. Les données restantes peuvent être stockées dans l’instance maître SQL.

Question 11

Est-ce que Cluster Big Data SQL Server prend en charge les bibliothèques et les traitements de deep learning basés sur les GPU (PyTorch, Keras, bibliothèques d’images spécifiques, etc.) ?

Accepted Answer

Ce scénario n’est pas pris en charge pour l’instant.

Question 12

Existe-t-il un moyen de configurer plusieurs revendications de volume pour un pool ?

Accepted Answer

Chaque pod ne peut avoir que deux volumes persistants. Vous pouvez abstraire le volume au niveau du système d’exploitation et l’utiliser pour le stockage persistant. Par exemple, vous pouvez créer une partition de système d’exploitation RAID 0 en utilisant plusieurs disques et l’utiliser pour le volume persistant avec un outil de provisionnement de stockage local. Il n’existe aujourd’hui aucun moyen d’utiliser davantage de volumes persistants. Les volumes persistants sont mappés aux répertoires à l’intérieur du conteneur et ceci est fixe. Pour plus d’informations sur les volumes persistants, consultez Volumes persistants dans la documentation Kubernetes.

Question 13

Si nous configurons plusieurs fournisseurs et plusieurs disques, la configuration HDFS sera-t-elle mise à jour avec toutes les revendications de volume de données ?

Accepted Answer

Vous pouvez configurer un pool de stockage pour qu’il utilise une classe de stockage spécifique au moment du déploiement. Consultez Persistance des données avec un cluster Big Data SQL Server sur Kubernetes.

Question 14

Quelles sont les options permettant d’accéder au stockage basé sur Ceph ?

Accepted Answer

La hiérarchisation HDFS nous permet d’effectuer de façon transparente l’intégration aux protocoles basés sur S3. Pour plus d’informations, consultez Guide pratique pour monter S3 pour la hiérarchisation HDFS dans un cluster Big Data.

Question 15

Les données dans HDFS sont-elles conservées après une mise à niveau ?

Accepted Answer

Oui, les données sont conservées, car elles se trouvent sur des volumes persistants et la mise à niveau déploie seulement des pods existants avec de nouvelles images.

Question 16

Comment la hiérarchisation HDFS contrôle-t-elle le cache ?

Accepted Answer

Avec la hiérarchisation HDFS, les données sont mises en cache dans le HDFS local exécuté dans Cluster Big Data pour permettre aux utilisateurs de s’attacher à de grands lacs de données sans devoir importer toutes les données. La quantité d’espace allouée au cache est actuellement définie par défaut sur 2 %. Les données sont conservées dans le cache, mais sont supprimées si ce seuil est dépassé. La sécurité définie au niveau du lac est également maintenue et toutes les listes de contrôle d’accès sont appliquées. Pour plus d’informations, consultez Configurer la hiérarchisation HDFS sur Clusters Big Data.

Question 17

Pouvons-nous utiliser SQL Server 2019 pour visualiser Azure Data Lake Store Gen2 ? Cette intégration va-t-elle prendre en charge les autorisations au niveau du dossier ?

Accepted Answer

Oui, vous pouvez virtualiser les données stockées dans ADLS Gen2 en utilisant la hiérarchisation HDFS. Une fois la hiérarchisation HDFS montée sur ADLS Gen2, les utilisateurs ont la possibilité d’interroger les données HDFS et d’exécuter des travaux Spark sur celles-ci. Le stockage monté apparaît dans le cluster HDFS pour un cluster Big Data à l’emplacement spécifié par --mount-path, et les utilisateurs peuvent utiliser ce chemin de montage comme s’ils travaillaient avec un stockage local. Pour plus d’informations, consultez Configurer la hiérarchisation HDFS sur Cluster Big Data. Pour plus d’informations sur les autorisations des niveaux HDFS, consultez Gérer les autorisations HDFS pour Clusters Big Data SQL Server.

Question 18

Quelle est la valeur par défaut de la haute disponibilité et/ou de la redondance pour le nœud maître sur Azure Kubernetes Service (AKS) ?

Accepted Answer

Le plan de contrôle AKS prend en charge un contrat SLA de durée de bon fonctionnement avec une disponibilité de 99,95 %. Les nœuds de cluster AKS (nœuds Worker) utilisent des zones de disponibilité. Pour plus d’informations, consultez Zones de disponibilité AKS. Une zone de disponibilité est une offre de haute disponibilité d’Azure qui protège les applications et les données contre les défaillances des centres de données. AKS prend en charge une disponibilité de 99,9 % pour les clusters qui n’utilisent pas les zones de disponibilité. Pour plus d’informations, consultez le contrat SLA pour Azure Kubernetes Service (AKS).

Question 19

Existe-t-il un moyen de conserver les journaux d’historique des travaux YARN et Spark ?

Accepted Answer

Le redémarrage de sparkhead n’entraîne pas la perte des journaux, car ces journaux se trouvent dans HDFS. Vous devez normalement voir les journaux d’historique Spark à partir de l’interface utilisateur /gateway/default/sparkhistory. Pour les journaux des conteneurs YARN, vous ne verrez pas ces applications dans l’interface utilisateur de YARN en raison du redémarrage de YARN RM, mais ces journaux YARN sont néanmoins encore dans HDFS et vous pouvez établir un lien vers ceux-ci depuis le serveur d’historique Spark. Vous devez toujours utiliser le serveur d’historique Spark comme point d’entrée pour diagnostiquer ses applications Spark.

Question 20

Existe-t-il un moyen de désactiver la fonctionnalité de mise en cache pour des pools ?

Accepted Answer

Par défaut, 1 % du stockage HDFS total est réservé à la mise en cache des données montées. La mise en cache est un paramètre global sur les montages. Actuellement, il n’existe pas de méthode exposée pour la désactiver. Cependant, le pourcentage peut être configuré via le paramètre hdfs-site.dfs.provided.cache.capacity.fraction. Ce paramètre contrôle la fraction de la capacité totale du cluster qui peut être utilisée pour mettre en cache des données provenant des magasins fournis. Pour le modifier, consultez Guide pratique pour configurer les paramètres de Cluster Big Data après le déploiement. Pour plus d’informations, consultez Configurer la hiérarchisation HDFS sur Clusters Big Data SQL Server.

Question 21

Comment planifier des procédures stockées SQL dans Cluster Big Data SQL Server 2019 ?

Accepted Answer

Vous pouvez utiliser le service SQL Server Agent dans l’instance maître SQL Server du cluster Big Data.

Question 22

Cluster Big Data prend-il en charge les scénarios de données de séries chronologiques natives, comme celles générées par les cas d’utilisation d’IoT ?

Accepted Answer

Pour le moment, InfluxDB dans un cluster Big Data est utilisé seulement pour stocker les données de supervision collectées au sein du cluster Big Data et n’est pas exposé en tant que point de terminaison externe.

Question 23

La version d’InfluxDB fournie peut-elle être utilisée comme base de données de séries chronologiques pour les données des clients ?

Accepted Answer

Pour le moment, InfluxDB dans un cluster Big Data est utilisé seulement pour stocker les données de supervision collectées au sein du cluster Big Data et n’est pas exposé en tant que point de terminaison externe.

Question 24

Comment ajouter une base de données au groupe de disponibilité ?

Accepted Answer

Dans Cluster Big Data, la configuration de la haute disponibilité crée un groupe de disponibilité appelé containedag, qui comprend également des bases de données système répliquées sur des réplicas. Les bases de données créées avec un workflow CREATE DATABASE ou RESTORE sont automatiquement ajoutées au groupe de disponibilité contenu et amorcées. Avant SQL Server 2019 (15.0) CU2, vous devez vous connecter à l’instance physique dans Cluster Big Data, restaurer la base de données et l’ajouter au containedag. Pour plus d’informations, consultez Déployer Cluster Big Data SQL Server avec la haute disponibilité.

Question 25

Est-ce que je peux configurer des ressources de cœur/mémoire pour des composants s’exécutant dans Cluster Big Data ?

Accepted Answer

Pour l’instant, vous pouvez définir la mémoire pour les instances SQL en utilisant sp_configure, exactement comme dans SQL Server. Pour les cœurs, vous pouvez utiliser ALTER SERVER CONFIGURATION SET PROCESS AFFINITY. Par défaut, les conteneurs voient tous les processeurs de l’hôte et nous n’avons, pour l’instant, pas de moyen de spécifier des limites de ressources à l’aide de Kubernetes. Pour le pool de calcul/pool de données/pool de stockage, la configuration peut être effectuée en utilisant l’instruction EXECUTE AT DATA_SOURCE depuis l’instance maître SQL Server.

Question 26

Que se passe-t-il quand un des nœuds Worker Kubernetes s’arrête ou connaît une interruption ?

Accepted Answer

Les pods sans définition d’affinité pour un nœud Worker seront déplacés sur un autre nœud du cluster Kubernetes, à condition qu’il y ait des ressources suffisantes. Sinon, le ou les pods seront indisponibles, ce qui va entraîner des interruptions.

Question 27

Se produit-il un rééquilibrage automatique du cluster Big Data si j’ajoute un nœud au cluster Kubernetes ?

Accepted Answer

Cette action dépend seulement de Kubernetes. Hormis le placement des pods en utilisant des étiquettes de nœud, il n’existe pas d’autre mécanisme pour contrôler le rééquilibrage des ressources Kubernetes depuis Cluster Big Data.

Question 28

Quelle est la conséquence sur les ressources de Cluster Big Data quand je supprime un nœud du cluster Kubernetes ?

Accepted Answer

Cette action équivaut à l’arrêt du nœud hôte. Il existe des mécanismes pour orchestrer cela dans Kubernetes en utilisant un processus de repoussement, qui est généralement appliqué pour la mise à niveau ou la maintenance des nœuds. Pour plus d’informations, consultez la documentation Kubernetes pour les Repoussements et tolérances.

Question 29

Est-ce que la version de Hadoop livrée avec Cluster Big Data gère la réplication des données ?

Accepted Answer

Oui, le facteur de réplication est une des configurations disponibles pour HDFS. Pour plus d’informations, consultez Configurer des volumes persistants.

Question 30

Cluster Big Data a-t-il des points communs avec Synapse en termes de fonctionnalités et d’intégration ?

Accepted Answer

Cela dépend de vos cas d’utilisation et de vos spécifications. Cluster Big Data fournit une surface d’exposition SQL Server complète en plus de la prise en charge par Microsoft de Spark et de HDFS en local. Cluster Big Data permet aux clients utilisant SQL Server de s’intégrer à l’analytique et/ou au Big Data. Azure Synapse est une plateforme d’analytique pure offrant une expérience de premier ordre aux clients sous la forme d’un service managé dans le cloud, mettant l’accent sur l’analytique avec scale-out. Azure Synapse ne cible pas une charge de travail opérationnelle dans ce cadre. Cluster Big Data est destiné à fournir des scénarios d’analytique de base de données, beaucoup plus proches du magasin opérationnel.

Question 31

Est-ce que SQL Server utilise HDFS comme stockage dans Clusters Big Data SQL Server ?

Accepted Answer

Les fichiers de base de données de l’instance SQL Server ne sont pas stockés dans HDFS, mais SQL Server peut interroger HDFS en utilisant une interface de table externe.

Question 32

Quelles sont les options de distribution disponibles pour le stockage des données dans les tables distribuées de chaque pool de données ?

Accepted Answer

ROUND_ROBIN et REPLICATED. ROUND_ROBIN est l’option par défaut. HASH n’est pas disponible.

Question 33

Est-ce que Spark Thrift Server est compris dans Cluster Big Data ? Si oui, le point de terminaison ODBC est-il exposé pour se connecter aux tables du metastore Hive ?

Accepted Answer

Nous exposons actuellement le metastore Hive via le protocole Thrift. Nous documentons le protocole, mais nous n’avons pas ouvert de point de terminaison ODBC pour l’instant. Vous pouvez y accéder via le protocole HTTP du metastore Hive. Pour plus d’informations, consultez Protocole HTTP du metastore Hive.

Question 34

Est-il possible d’ingérer des données provenant de SnowFlake dans un cluster Big Data ?

Accepted Answer

SQL Server sur Linux (s’applique également à l’instance maître SQL Server dans Cluster Big Data) ne prend pas en charge la source de données ODBC générique qui vous permet d’installer un pilote ODBC tiers (SnowFlake, DB2, PostgreSQL, etc.) et de les interroger. Cette fonctionnalité est actuellement disponible seulement dans SQL Server 2019 (15.0) sur Windows. Dans Cluster Big Data, vous pouvez lire les données via Spark en utilisant JDBC et les ingérer dans SQL Server en utilisant le connecteur MSSQL Spark.

Question 35

Est-il possible d’ingérer des données en utilisant une source de données ODBC personnalisée dans un cluster Big Data ?

Accepted Answer

SQL Server sur Linux (s’applique également à l’instance maître SQL Server dans Cluster Big Data) ne prend pas en charge la source de données ODBC générique qui vous permet d’installer un pilote ODBC tiers (SnowFlake, DB2, PostgreSQL, etc.) et de les interroger.

Question 36

Comment pouvez-vous importer des données dans la même table en utilisant PolyBase CTAS au lieu de créer une table chaque fois que vous exécutez le CTAS ?

Accepted Answer

Vous pouvez utiliser l’approche INSERT..SELECT pour éviter d’avoir besoin d’une nouvelle table à chaque fois.

Question 37

Quels sont les avantages/éléments à prendre en considération pour charger des données dans un pool de données au lieu de le faire directement dans l’instance maître sous forme de tables locales ?

Accepted Answer

Si votre instance maître SQL Server a suffisamment de ressources pour traiter votre charge de travail analytique, c’est toujours l’option la plus rapide. Un pool de données va vous aider si vous voulez décharger l’exécution sur d’autres instances SQL pour vos requêtes distribuées. Vous pouvez aussi utiliser un pool de données pour ingérer des données provenant d’exécuteurs Spark en parallèle à différentes instances SQL : les performances de chargement pour des grands jeux de données générés à partir du système de fichiers distribué Hadoop (HDFS) sont donc généralement préférables à l’utilisation d’une instance SQL Server unique. C’est cependant assez difficile à déterminer, car vous pourriez néanmoins avoir plusieurs tables dans SQL Server et les insérer en parallèle si vous le souhaitez. Les performances dépendent de nombreux facteurs, et il n’y a pas de règle ou de recommandation simple à cet égard.

Question 38

Comment superviser la distribution des données dans les tables d’un pool de données ?

Accepted Answer

Vous pouvez utiliser EXECUTE AT pour interroger des vues de gestion dynamiques comme sys.dm_db_partition_stats pour obtenir les données de chaque table locale.

Question 39

Est-ce que Curl est la seule option pour charger des fichiers sur HDFS ?

Accepted Answer

Non, vous pouvez utiliser azdata bdc hdfs cp. Si vous spécifiez le répertoire racine, la commande va copier de façon récursive l’arborescence entière. Vous pouvez copier en entrée/sortie en utilisant cette commande en changeant simplement les chemins source/cible.

Question 40

Comment charger des données dans le pool de données ?

Accepted Answer

Vous pouvez utiliser la bibliothèque de connecteurs MSSQL Spark pour faciliter l’ingestion avec SQL et le pool de données. Pour une procédure pas à pas guidée, consultez Tutoriel : Ingérer des données dans un pool de données SQL Server avec des travaux Spark.

Question 41

Si j’ai une grande quantité de données sur un chemin réseau (Windows), qui contient un grand nombre de dossiers/sous-dossiers et de fichiers texte, comment les charger sur HDFS sur un cluster Big Data ?

Accepted Answer

Essayez azdata bdc hdfs cp. Si vous spécifiez le répertoire racine, la commande va copier de façon récursive l’arborescence entière. Vous pouvez copier en entrée/sortie en utilisant cette commande en changeant simplement les chemins source/cible.

Question 42

Est-il possible d’augmenter la taille du pool de stockage sur un cluster déployé ?

Accepted Answer

Il n’existe pas pour l’instant d’interface azdata pour effectuer cette opération. Vous avez la possibilité de redimensionner manuellement les PVC souhaités. Le redimensionnement est une opération complexe : consultez la documentation sur les volumes persistants dans Kubernetes.

Question 43

Quand utiliser des serveurs liés ou bien PolyBase ?

Accepted Answer

Découvrez les principales différences et des cas d’usage ici : Forum aux questions sur PolyBase.

Question 44

Quelles sont les sources de virtualisation des données prises en charge ?

Accepted Answer

Cluster Big Data prend en charge la virtualisation des données provenant de sources ODBC : SQL Server, Oracle, MongoDB, Teradata, etc. Il prend également en charge la hiérarchisation des magasins distants comme Azure Data Lake Store Gen2 et le stockage compatible S3 ainsi que AWS S3A et ABFS (Azure Blob File System).

Question 45

Puis-je utiliser PolyBase pour virtualiser des données stockées dans une base de données Azure SQL ?

Accepted Answer

Oui, vous pouvez utiliser PolyBase dans Cluster Big Data pour accéder aux données dans Azure SQL Database.

Question 46

Pourquoi les instructions CREATE TABLE incluent-elles le mot clé EXTERNAL ? Que fait EXTERNAL différemment de l’instruction CREATE TABLE standard ?

Accepted Answer

En général, le mot clé EXTERNAL implique que les données ne se trouvent pas dans l’instance SQL Server. Par exemple, vous pouvez définir une table de pool de stockage au-dessus d’un répertoire HDFS. Les données sont stockées dans des fichiers HDFS et non pas dans vos fichiers de base de données, mais la table externe vous a fourni l’interface nécessaire pour interroger des fichiers HDFS en tant que table relationnelle comme s’ils se trouvaient dans la base de données.
Ce concept d’accès aux données externes est appelé « virtualisation des données ». Pour plus d’informations, consultez Présentation de la virtualisation des données avec PolyBase. Pour un tutoriel sur la virtualisation des données provenant de fichiers CSV dans HDFS, consultez [Virtualiser des données CSV provenant d’un pool de stockage Clusters Big Data.

Question 47

Quelles sont les différences entre la virtualisation de données avec SQL Server s’exécutant dans les clusters Big data SQL Server et SQL Server ?

Accepted Answer

Pour une comparaison, consultez Comparaison entre PolyBase dans Clusters Big Data et PolyBase dans des instances autonomes.

Question 48

Comment savoir facilement si une table externe pointe vers un pool de données ou vers un pool de stockage ?

Accepted Answer

Vous pouvez déterminer le type de table externe en examinant le préfixe de l’emplacement de la source de données, par exemple sqlserver://, oracle://, sqlhdfs://, sqldatapool://.

Question 49

Le déploiement de mon cluster Big Data a échoué. Comment savoir ce qui s’est mal passé ?

Accepted Answer

Consultez Gérer Clusters Big Data SQL Server avec des notebooks Azure Data Studio. Consultez également les rubriques de dépannage dans Résoudre les problèmes de Kubernetes.

Question 50

Existe-t-il une liste définitive de tout ce qui peut être défini dans la configuration de Cluster Big Data ?

Accepted Answer

Toutes les personnalisations qui peuvent être effectuées au moment du déploiement sont documentées ici dans Configurer les paramètres de déploiement pour les ressources et les services des clusters. Pour Spark, consultez Configurer Apache Spark et Apache Hadoop dans Clusters Big Data.

Question 51

Pouvons-nous déployer SQL Server Analysis Services avec Clusters Big Data SQL Server ?

Accepted Answer

Non. En l’occurrence, SQL Server Analysis Services (SSAS) n’est pas pris en charge sur SQL Server sur Linux : vous devez donc installer une instance SQL Server sur Windows Server pour exécuter SSAS.

Question 52

Cluster Big Data est-il pris en charge pour le déploiement dans EKS ou GKS ?

Accepted Answer

Cluster Big Data peut s’exécuter sur n’importe quelle pile Kubernetes basée sur la version 1.13 et ultérieure. Cependant, nous n’avons pas effectué de validations spécifiques de Cluster Big Data sur EKS ou GKS.

Question 53

Quelle est la version de HDFS et de Spark qui s’exécute dans Cluster Big Data ?

Accepted Answer

La version de Spark est 2.4 et celle de HDFS est 3.2.1. Pour plus d’informations sur le logiciel open source inclus dans Cluster Big Data, consultez Informations de référence sur les logiciels open source.

Question 54

Comment installer des bibliothèques et des packages dans Spark ?

Accepted Answer

Vous pouvez ajouter des packages lors de l’envoi d’un travail en utilisant les étapes de l’exemple de notebook pour l’installation de packages dans Spark.

Question 55

Est-ce que je dois utiliser SQL Server 2019 pour utiliser R et Python pour Clusters Big Data SQL Server ?

Accepted Answer

Les services Machine Learning (R et Python) sont disponibles à compter de SQL Server 2017. Les services Machine Learning sont également disponibles dans Clusters Big Data SQL Server. Pour plus d’informations, consultez Qu’est-ce que SQL Server Machine Learning Services avec Python et R ?.

Question 56

Comment les licences SQL Server fonctionnent-elles pour Clusters Big Data SQL Server ?

Accepted Answer

Reportez-vous au guide des licences qui contient bien plus de détails : téléchargez le PDF.
Pour obtenir un résumé, regardez la vidéo Gestion des licences SQL Server : Clusters Big Data | Données exposées.

Question 57

Le cluster Big Data prend-il en charge Microsoft Entra ID ([anciennement Azure Active Directory](/entra/fundamentals/new-name)) ?

Accepted Answer

Pas pour l'instant.

Question 58

Est-il possible de se connecter au cluster Big Data maître en utilisant l’authentification intégrée ?

Accepted Answer

Oui, vous pouvez vous connecter aux différents services Cluster Big Data en utilisant l’authentification intégrée (avec Active Directory). Pour plus d’informations, consultez Déployer Cluster Big Data SQL Server en mode Active Directory. Consultez également Concepts de sécurité pour Clusters Big Data.

Question 59

Comment ajouter de nouveaux utilisateurs pour différents services au sein de Cluster Big Data ?

Accepted Answer

En mode d’authentification de base (nom d’utilisateur/mot de passe), il n’y a pas de prise en charge de l’ajout de plusieurs utilisateurs pour les points de terminaison de contrôleur ou de passerelle Knox/HDFS. Le seul utilisateur pris en charge pour ces points de terminaison est root. Pour SQL Server, vous pouvez ajouter des utilisateurs en utilisant Transact-SQL, comme vous le feriez pour n’importe quelle autre instance SQL Server. Si vous déployez Cluster Big Data avec l’authentification AD pour ses points de terminaison, l’ajout de plusieurs utilisateurs est pris en charge. Pour plus d’informations sur la configuration des groupes AD au moment du déploiement, consultez ceci. Pour plus d’informations, consultez Déployer Cluster Big Data SQL Server en mode Active Directory.

Question 60

Pour que Cluster Big Data extraie les images conteneur les plus récentes, existe-t-il une plage d’adresses IP sortantes que je peux restreindre ?

Accepted Answer

Vous pouvez examiner les adresses IP utilisées par les différents services dans Plages d’adresses IP Azure et étiquettes des services - Cloud public. Notez que ces adresses IP font l’objet de rotations périodiques.
Pour que le service de contrôleur puisse extraire les images conteneur du Microsoft Container Registry (MCR), vous devez accorder l’accès aux adresses IP spécifiées dans la section MicrosoftContainerRegistry. Une autre option est de configurer un registre Azure Container Registry privé et de configurer le cluster Big Data pour effectuer l’extraction à partir de là. Dans ce cas, vous devez exposer les adresses IP spécifiées dans la section AzureContainerRegistry. Des instructions sur la façon de procéder et un script sont fournis dans Effectuer un déploiement hors connexion d’un cluster Big Data SQL Server.

Question 61

Puis-je déployer Cluster Big Data dans un environnement d’isolation physique ?

Accepted Answer

Oui. Pour plus d’informations, consultez Effectuer un déploiement hors connexion d’un cluster Big Data SQL Server.

Question 62

La fonctionnalité « Chiffrement de Stockage Azure » s’applique-t-elle également par défaut aux clusters Big Data basés sur AKS ?

Accepted Answer

Cela dépend des configurations de l’outil de provisionnement de stockage dynamique dans Azure Kubernetes Service (AKS). Pour plus d’informations, consultez Bonnes pratiques relatives au stockage et aux sauvegardes dans Azure Kubernetes Service (AKS).

Question 63

Est-ce que je peux effectuer une rotation des clés pour SQL Server et pour le chiffrement HDFS dans un cluster Big Data ?

Accepted Answer

Oui. Pour plus d’informations, consultez Versions des clés dans Cluster Big Data.

Question 64

Puis-je faire pivoter les mots de passe des objets Active Directory générés automatiquement ?

Accepted Answer

Oui, vous pouvez facilement pivoter les mots de passe des objets Active Directory générés automatiquement avec une nouvelle fonctionnalité introduite les clusters Big Data SQL Server CU13. Pour plus d’informations, consultez Rotation de mot de passe AD.

Partager via

FAQ sur les clusters Big Data SQL Server

Meilleures pratiques

Quelles sont les bonnes pratiques recommandées pour les emplacements des fichiers ?

Est-ce que je dois effectuer des sauvegardes des journaux des transactions sur Clusters Big Data SQL Server ?

Comment savoir si les requêtes distribuées utilisent réellement le pool de calcul ?

Est-il possible de configurer et de gérer des ressources de Cluster Big Data directement via kubectl sur le serveur d’API Kubernetes ?

Comment sauvegarder des données stockées dans HDFS ?

Concepts et fonctions

Existe-t-il un moyen d’effectuer un « scale-out » d’une procédure stockée ? Par exemple, faire en sorte qu’elle s’exécute sur un pool de calcul ?

Comment mettre à l’échelle dynamiquement les pods d’un pool ?

Est-il possible de sauvegarder des tables externes stockées dans des pools de données ?

Le pool de données permet-il le partitionnement ?

Quand utiliser le pool de données ou le pool de stockage pour le stockage de données brutes ?

Est-ce que Cluster Big Data SQL Server prend en charge les bibliothèques et les traitements de deep learning basés sur les GPU (PyTorch, Keras, bibliothèques d’images spécifiques, etc.) ?

Existe-t-il un moyen de configurer plusieurs revendications de volume pour un pool ?

Si nous configurons plusieurs fournisseurs et plusieurs disques, la configuration HDFS sera-t-elle mise à jour avec toutes les revendications de volume de données ?

Quelles sont les options permettant d’accéder au stockage basé sur Ceph ?

Les données dans HDFS sont-elles conservées après une mise à niveau ?

Comment la hiérarchisation HDFS contrôle-t-elle le cache ?

Pouvons-nous utiliser SQL Server 2019 pour visualiser Azure Data Lake Store Gen2 ? Cette intégration va-t-elle prendre en charge les autorisations au niveau du dossier ?

Quelle est la valeur par défaut de la haute disponibilité et/ou de la redondance pour le nœud maître sur Azure Kubernetes Service (AKS) ?

Existe-t-il un moyen de conserver les journaux d’historique des travaux YARN et Spark ?

Existe-t-il un moyen de désactiver la fonctionnalité de mise en cache pour des pools ?

Comment planifier des procédures stockées SQL dans Cluster Big Data SQL Server 2019 ?

Cluster Big Data prend-il en charge les scénarios de données de séries chronologiques natives, comme celles générées par les cas d’utilisation d’IoT ?

La version d’InfluxDB fournie peut-elle être utilisée comme base de données de séries chronologiques pour les données des clients ?

Comment ajouter une base de données au groupe de disponibilité ?

Est-ce que je peux configurer des ressources de cœur/mémoire pour des composants s’exécutant dans Cluster Big Data ?

Que se passe-t-il quand un des nœuds Worker Kubernetes s’arrête ou connaît une interruption ?

Se produit-il un rééquilibrage automatique du cluster Big Data si j’ajoute un nœud au cluster Kubernetes ?

Quelle est la conséquence sur les ressources de Cluster Big Data quand je supprime un nœud du cluster Kubernetes ?

Est-ce que la version de Hadoop livrée avec Cluster Big Data gère la réplication des données ?

Cluster Big Data a-t-il des points communs avec Synapse en termes de fonctionnalités et d’intégration ?

Est-ce que SQL Server utilise HDFS comme stockage dans Clusters Big Data SQL Server ?

Quelles sont les options de distribution disponibles pour le stockage des données dans les tables distribuées de chaque pool de données ?

Est-ce que Spark Thrift Server est compris dans Cluster Big Data ? Si oui, le point de terminaison ODBC est-il exposé pour se connecter aux tables du metastore Hive ?

Chargement de données

Est-il possible d’ingérer des données provenant de SnowFlake dans un cluster Big Data ?

Est-il possible d’ingérer des données en utilisant une source de données ODBC personnalisée dans un cluster Big Data ?

Comment pouvez-vous importer des données dans la même table en utilisant PolyBase CTAS au lieu de créer une table chaque fois que vous exécutez le CTAS ?

Quels sont les avantages/éléments à prendre en considération pour charger des données dans un pool de données au lieu de le faire directement dans l’instance maître sous forme de tables locales ?

Comment superviser la distribution des données dans les tables d’un pool de données ?

Est-ce que Curl est la seule option pour charger des fichiers sur HDFS ?

Comment charger des données dans le pool de données ?

Si j’ai une grande quantité de données sur un chemin réseau (Windows), qui contient un grand nombre de dossiers/sous-dossiers et de fichiers texte, comment les charger sur HDFS sur un cluster Big Data ?

Est-il possible d’augmenter la taille du pool de stockage sur un cluster déployé ?

Virtualisation de données

Quand utiliser des serveurs liés ou bien PolyBase ?

Quelles sont les sources de virtualisation des données prises en charge ?

Puis-je utiliser PolyBase pour virtualiser des données stockées dans une base de données Azure SQL ?

Pourquoi les instructions CREATE TABLE incluent-elles le mot clé EXTERNAL ? Que fait EXTERNAL différemment de l’instruction CREATE TABLE standard ?

Quelles sont les différences entre la virtualisation de données avec SQL Server s’exécutant dans les clusters Big data SQL Server et SQL Server ?

Comment savoir facilement si une table externe pointe vers un pool de données ou vers un pool de stockage ?

Déploiement

Le déploiement de mon cluster Big Data a échoué. Comment savoir ce qui s’est mal passé ?

Existe-t-il une liste définitive de tout ce qui peut être défini dans la configuration de Cluster Big Data ?

Pouvons-nous déployer SQL Server Analysis Services avec Clusters Big Data SQL Server ?

Cluster Big Data est-il pris en charge pour le déploiement dans EKS ou GKS ?

Quelle est la version de HDFS et de Spark qui s’exécute dans Cluster Big Data ?

Comment installer des bibliothèques et des packages dans Spark ?

Est-ce que je dois utiliser SQL Server 2019 pour utiliser R et Python pour Clusters Big Data SQL Server ?

Licence

Comment les licences SQL Server fonctionnent-elles pour Clusters Big Data SQL Server ?

Sécurité

Le cluster Big Data prend-il en charge Microsoft Entra ID ([anciennement Azure Active Directory](/entra/fundamentals/new-name)) ?

Est-il possible de se connecter au cluster Big Data maître en utilisant l’authentification intégrée ?

Comment ajouter de nouveaux utilisateurs pour différents services au sein de Cluster Big Data ?

Pour que Cluster Big Data extraie les images conteneur les plus récentes, existe-t-il une plage d’adresses IP sortantes que je peux restreindre ?

Puis-je déployer Cluster Big Data dans un environnement d’isolation physique ?

La fonctionnalité « Chiffrement de Stockage Azure » s’applique-t-elle également par défaut aux clusters Big Data basés sur AKS ?

Est-ce que je peux effectuer une rotation des clés pour SQL Server et pour le chiffrement HDFS dans un cluster Big Data ?

Puis-je faire pivoter les mots de passe des objets Active Directory générés automatiquement ?

Support

Spark et HDFS déployés dans les clusters Big Data SQL Server sont-ils pris en charge par Microsoft ?

Quel est le modèle de prise en charge pour SparkML et SQL Server Machine Learning Services ?

La plateforme Red Hat Enterprise Linux 8 (RHEL8) est-elle prise en charge pour Clusters Big Data SQL Server ?

Outils

Les notebooks disponibles dans Azure Data Studio sont-ils principalement des notebooks Jupyter ?

L’outil « azdata » est-il open source ?