Questo articolo risponde alle domande frequenti sui concetti, le funzionalità, la distribuzione, la supportabilità e gli strumenti dei cluster Big Data di SQL Server.
Procedure consigliate
Quali sono le procedure consigliate raccomandate in merito ai percorsi dei file?
Questa soluzione offre meno flessibilità rispetto alla configurazione di SQL Server su computer bare metal in Windows o Linux. Nell'ambiente Kubernetes questi artefatti sono astratti e hanno bisogno di essere portabili. Attualmente sono presenti 2 volumi persistenti, per i dati e i log, per pod che possono essere configurati. Per altre informazioni, vedere Salvataggio permanente dei dati con un cluster Big Data di SQL Server in Kubernetes.
È necessario eseguire backup del log delle transazioni nei cluster Big Data di SQL Server?
È necessario eseguire backup del log solo per i database utente nell'istanza master di SQL Server (a seconda del modello di ripristino o della configurazione della disponibilità elevata). I database dei pool di dati usano solo il modello di ripristino SIMPLE. Lo stesso vale per i database DW* creati per PolyBase.
In che modo è possibile monitorare se le query distribuite usano effettivamente il pool di calcolo?
È possibile usare le DMV di PolyBase esistenti che sono state migliorate per gli scenari con cluster Big Data. Per altre informazioni, vedere Monitorare e risolvere i problemi relativi a PolyBase.
È possibile configurare e gestire le risorse del cluster Big Data direttamente tramite kubectl nel server API Kubernetes?
Anche se è possibile modificare alcune delle impostazioni usando l'API Kubernetes o kubectl, questa scelta non è supportata né consigliata. È necessario eseguire tutte le operazioni di gestione del cluster Big Data tramite azdata.
In che modo è possibile eseguire il backup dei dati in HDFS?
È possibile usare qualsiasi soluzione che consenta l'acquisizione di snapshot o la copia/sincronizzazione della risorsa di archiviazione a livello di hardware tramite webHDFS. È anche possibile usare azdata bdc hdfs cp
. Per altre informazioni, vedere azdata bdc hdfs.
Concetti e funzionalità
C'è un modo per "eseguire lo scale out" di una stored procedure? Ad esempio, fare in modo che venga eseguita nel pool di calcolo per esempio?
Non al momento. Un'opzione consiste nel distribuire SQL Server in un gruppo di disponibilità Always On. È quindi possibile usare le repliche secondarie leggibili per eseguire alcuni processi, ad esempio training/punteggio di machine learning, attività di manutenzione e così via.
Come ridimensionare dinamicamente i pod di un pool?
Al momento questo scenario non è supportato.
È possibile eseguire il backup di tabelle esterne archiviate in pool di dati?
Il database nell'istanza del pool di dati non dispone di metadati relativi alle tabelle esterne. È come qualsiasi database utente. È possibile eseguire il backup o il ripristino, ma per evitare risultati incoerenti, è necessario assicurarsi che i metadati delle tabelle esterne nel database dei metadati nell'istanza master di SQL siano sincronizzati.
Il pool di dati offre il partizionamento?
Il pool di dati è un concetto di tabella distribuita. Il partizionamento viene in genere indicato come concetto OLTP e non è attualmente supportato.
Quando è necessario usare il pool di dati o il pool di archiviazione per l'archiviazione di dati non elaborati?
Il termine pool è riservato alla descrizione di una raccolta di applicazioni o servizi omogenei. Ad esempio, il pool di dati è un set di dati di calcolo e archiviazione SQL Server con stato e il pool di archiviazione è un set di servizi HDFS e Spark. Il master di SQL Server è un'istanza singola o più istanze che possono essere configurate in un gruppo di disponibilità. L'istanza master di SQL Server è una normale istanza di SQL Server in Linux in cui è possibile usare qualsiasi funzionalità disponibile in Linux. È consigliabile iniziare prima con il modello di dati, le entità e i servizi/applicazioni che opereranno principalmente sull'entità. Tutti i dati non devono necessariamente essere archiviati in un'unica posizione come pool di dati, SQL Server o HDFS. In base all'analisi dei dati, è possibile archiviare la maggior parte dei dati in HDFS, elaborarli in un formato più efficiente ed esporli ad altri servizi. I dati rimanenti vengono archiviati nell'istanza master di SQL.
Il cluster Big Data di SQL Server supporta i calcoli e le librerie di Deep Learning basate su GPU (PyTorch, Keras, specifiche librerie di immagini e così via)?
Al momento questo scenario non è supportato.
Esiste un modo per configurare più attestazioni di volume per un pool?
Ogni pod può avere solo due volumi persistenti. È possibile astrarre il volume a livello di sistema operativo e usarlo per l'archiviazione persistente. È possibile ad esempio creare una partizione del sistema operativo RAID 0 usando più dischi e usarla per il volume persistente ricorrendo a uno strumento di provisioning per l'archiviazione locale. Nella versione attuale, non c'è modo di usare più volumi persistenti. I volumi persistenti vengono mappati a directory all'interno del contenitore, che è fisso. Per altre informazioni sui volumi persistenti, vedere Volumi persistenti nella documentazione di Kubernetes.
Se si configurano più provider e più dischi, la configurazione di HDFS verrà aggiornata con tutte le attestazioni del volume di dati?
È possibile configurare il pool di archiviazione per usare una classe di archiviazione specifica in fase di distribuzione. Vedere Salvataggio permanente dei dati con un cluster Big Data di SQL Server in Kubernetes.
Quali sono le opzioni per accedere all'archiviazione basata su Ceph?
La suddivisione in livelli di HDFS consente di integrare in modo trasparente i protocolli basati su S3. Per altre informazioni, vedere Come montare S3 per la suddivisione in livelli HDFS in un cluster Big Data.
I dati in HDFS vengono conservati dopo un aggiornamento?
Sì, i dati verranno conservati poiché sono supportati da volumi persistenti e l'aggiornamento distribuisce semplicemente i pod esistenti con nuove immagini.
In che modo la suddivisione in livello di HDFS controlla la cache?
Usando la suddivisione in livelli di HDFS, i dati vengono memorizzati nella cache nell'HDFS locale in esecuzione nel cluster Big Data per consentire agli utenti di connettersi a grandi data lake senza dover inserire tutti i dati. Esiste una quantità configurabile di spazio allocata alla cache che attualmente è per impostazione predefinita pari al 2%. I dati vengono mantenuti nella cache, ma verranno rimossi se tale soglia viene superata. Anche la sicurezza viene gestita dal lake e vengono applicati tutti gli elenchi di controllo di accesso. Per altre informazioni, vedere Configurare la suddivisione in livelli di HDFS nei cluster Big Data.
È possibile usare SQL Server 2019 per visualizzare Azure Data Lake Store Gen2? Questa integrazione si occupa dell'autorizzazione a livello di cartella?
Sì, è possibile virtualizzare i dati archiviati in ADLS Gen2 usando la suddivisione in livelli di HDFS. Dopo aver montato la suddivisione in livelli di HDFS in ADLS Gen2, gli utenti possono eseguire query sui dati HDFS ed eseguire processi Spark su tali dati. L'archiviazione montata verrà visualizzata in HDFS per il cluster Big Data nella posizione specificata da --mount-path e gli utenti potranno usare il percorso di montaggio come se lavorassero con un archivio locale. Vedere altri dettagli qui: Configurare la suddivisione in livelli di HDFS nel cluster Big Data. Per altre informazioni sulle autorizzazioni per la suddivisione in livelli di HDFS, vedere Gestire le autorizzazioni HDFS per i cluster Big Data di SQL Server.
Qual è l'impostazione predefinita della disponibilità elevata e/o della ridondanza per il nodo master nel servizio Azure Kubernetes?
Il piano di controllo del servizio Azure Kubernetes supporta un tempo di attività che nel contratto di servizio è garantito con la disponibilità del 99,95%. I nodi del cluster del servizio Azure Kubernetes (nodi di lavoro) usano le zone di disponibilità. Per altre informazioni, vedere Zone di disponibilità del servizio Azure Kubernetes. Una zona di disponibilità è una soluzione a disponibilità elevata di Azure che protegge le applicazioni e i dati da eventuali guasti del data center. Il servizio Azure Kubernetes supporta una disponibilità del 99,9% per i cluster che non usano le zone di disponibilità. Per altre informazioni, fare riferimento al Contratto di servizio per il servizio Azure Kubernetes.
Esiste un modo per mantenere i log della cronologia processi di YARN e Spark?
Il riavvio di sparkhead non causerà la perdita dei log, in quanto si trovano in HDFS. I log della cronologia di Spark restano visibili dall'interfaccia utente /gateway/default/sparkhistory. Per i log dei contenitori Yarn, tali app non saranno visibili nell'interfaccia utente di Yarn perché Yarn RM si riavvia. Tuttavia questi log di Yarn sono ancora in HDFS ed è possibile collegarli dal server di cronologia di Spark. Si dovrebbe sempre usare il server di cronologia Spark come punto di ingresso per diagnosticare le app Spark.
Esiste un modo per disattivare la funzionalità di memorizzazione nella cache per i pool?
Per impostazione predefinita, l'1% dello spazio di archiviazione HDFS totale viene riservato per la memorizzazione nella cache dei dati montati. La memorizzazione nella cache è un'impostazione globale per tutti i montaggi. Attualmente non esiste un modo esposto per disattivarla, tuttavia, è possibile configurare la percentuale tramite l'impostazione hdfs-site.dfs.provided.cache.capacity.fraction. Questa impostazione controlla la frazione della capacità totale nel cluster che può essere usata per memorizzare nella cache i dati dagli archivi forniti. Per modificare questa impostazione, vedere Come configurare le impostazioni del cluster Big Data dopo la distribuzione. Per altre informazioni, vedere Configurare la suddivisione in livelli di HDFS nei cluster Big Data.
Come si pianificano le stored procedure SQL nel cluster Big Data di SQL Server 2019?
È possibile usare il servizio SQL Server Agent nell'istanza master di SQL Server del cluster Big Data.
Il cluster Big Data supporta scenari di dati di serie temporali nativi come ad esempio quelli generati da casi d'uso dell'IoT?
In questo momento il database InfluxDB in un cluster Big Data viene usato solo per archiviare i dati di monitoraggio raccolti all'interno del cluster Big Data e non viene esposto come endpoint esterno.
È possibile usare il database InfluxDB fornito come database di serie temporali per i dati dei clienti?
In questo momento il database InfluxDB in un cluster Big Data viene usato solo per archiviare i dati di monitoraggio raccolti all'interno del cluster Big Data e non viene esposto come endpoint esterno.
In che modo si aggiunge un database al gruppo di disponibilità?
Nel cluster Big Data, la configurazione della disponibilità elevata crea un gruppo di disponibilità denominato containedag che include anche i database di sistema replicati tra repliche. I database creati come risultato di flussi di lavoro CREATE DATABASE o RESTORE vengono automaticamente aggiunti al gruppo di disponibilità indipendente e sottoposti a seeding. Nelle versioni precedenti a SQL Server 2019 (15.0) CU2, è necessario connettersi all'istanza fisica nel cluster Big Data, ripristinare il database e aggiungerlo al gruppo di disponibilità indipendente. Per altre informazioni, vedere Distribuire un cluster Big Data di SQL Server con disponibilità elevata.
È possibile configurare le risorse di base/memoria per i componenti in esecuzione all'interno del cluster Big Data?
A questo punto, è possibile impostare la memoria per le istanze SQL usando sp_configure, proprio come in SQL Server. Per i core, è possibile usare ALTER SERVER CONFIGURATION SET PROCESS AFFINITY
. Per impostazione predefinita, i contenitori vedono tutte le CPU nell'host e al momento non è possibile specificare i limiti delle risorse usando Kubernetes. Per il pool di calcolo/pool di dati/pool di archiviazione, è possibile eseguire la configurazione usando l'istruzione EXECUTE AT DATA_SOURCE dall'istanza master di SQL Server.
Che cosa accade quando uno dei nodi di lavoro Kubernetes viene arrestato o è soggetto a un'interruzione?
I pod per i quali non è stata creata un'affinità al rispettivo nodo di lavoro verranno spostati in un altro nodo nel cluster Kubernetes, purché siano disponibili risorse sufficienti. In caso contrario, i pod saranno non disponibili, con conseguente interruzione del servizio.
Il cluster Big Data si bilancia automaticamente se si aggiunge un nodo al cluster Kubernetes?
Questa azione dipende solo da Kubernetes. A parte il posizionamento dei pod con le etichette dei nodi, non esiste alcun altro meccanismo per controllare il ribilanciamento delle risorse Kubernetes dall'interno del cluster Big Data.
Qual è la conseguenza sulle risorse del cluster Big Data quando si rimuove un nodo dal cluster Kubernetes?
Questa azione equivale al nodo host in fase di arresto. Esistono meccanismi per orchestrare questa operazione in Kubernetes usando un processo contaminante che in genere viene seguito per la manutenzione degli aggiornamenti o dei nodi. Per altre informazioni, vedere la documentazione di Kubernetes per Contaminazioni e tolleranze.
Hadoop usato in bundle con il cluster Big Data è in grado di gestire la replica dei dati?
Sì, il fattore di replica è una delle configurazioni disponibili per HDFS. Per altre informazioni, vedere Configurare i volumi persistenti.
Il cluster Big Data si sovrappone a Synapse in termini di funzionalità e integrazione?
Dipende dai casi d'uso e dai requisiti. Il cluster Big Data offre un'area di superficie SQL Server completa oltre a Spark e HDFS supportati da Microsoft, in locale. Il cluster Big Data consente al cliente di SQL Server di integrare analisi/Big Data. Azure Synapse è puramente una piattaforma analitica che offre ai clienti un'esperienza di prima classe come servizio gestito nel cloud, con una particolare attenzione all'analisi della scalabilità orizzontale. Azure Synapse non si rivolge a un carico di lavoro operativo come parte di questo ambito. Il cluster Big Data mira a fornire scenari analitici del database, molto più vicini all'archivio operativo.
SQL Server usa HDFS come propria risorsa di archiviazione nei cluster Big Data di SQL Server?
I file di database dell'istanza di SQL Server non vengono archiviati in HDFS, ma SQL Server può eseguire query su HDFS usando l'interfaccia delle tabelle esterne.
Quali sono le opzioni di distribuzione disponibili per l'archiviazione di dati nelle tabelle distribuite in ogni pool di dati?
ROUND_ROBIN e REPLICATED. ROUND_ROBIN è l'impostazione predefinita. HASH non è disponibile.
Il cluster Big Data include il server Spark Thrift? In tal caso, l'endpoint ODBC è esposto per la connessione alle tabelle Hive Metastore?
Attualmente si espone Hive Metastore (HMS) tramite il protocollo Thrift. Il protocollo è documentato ma al momento non è stato aperto un endpoint ODBC. È possibile accedervi tramite il protocollo HTTP Hive Metastore. Per altre informazioni, vedere Protocollo HTTP Hive Metastore.
Caricamento dei dati
È possibile inserire dati da SnowFlake in un cluster Big Data?
SQL Server in Linux (si applica anche all'istanza master di SQL Server nel cluster Big Data) non supporta l'origine dati ODBC generica che consente di installare un driver ODBC di terze parti (SnowFlake, DB2, PostgreSQL e così via) ed eseguire query su tali dati. Questa funzionalità è attualmente disponibile solo in SQL Server 2019 (15.0) per Windows. Nel cluster Big Data è possibile leggere i dati tramite Spark usando JDBC e inserirli in SQL Server usando MSSQL Spark Connector.
È possibile inserire dati in un cluster Big Data usando un'origine dati ODBC personalizzata?
SQL Server in Linux (si applica anche all'istanza master di SQL Server nel cluster Big Data) non supporta l'origine dati ODBC generica che consente di installare un driver ODBC di terze parti (SnowFlake, DB2, PostgreSQL e così via) ed eseguire query su tali dati.
In che modo è possibile importare i dati nella stessa tabella usando PolyBase CTAS invece di creare una nuova tabella ogni volta che si esegue CTAS?
È possibile usare l'approccio INSERT..SELECT
per evitare la necessità di una nuova tabella ogni volta.
Quali sono i vantaggi/le considerazioni derivanti dal caricamento dei dati nel pool di dati invece del caricamento diretto nell'istanza master come tabelle locali?
Se l'istanza master di SQL Server dispone di risorse sufficienti per soddisfare il carico di lavoro analitico, è sempre l'opzione più veloce. Il pool di dati è utile se si vuole scaricare l'esecuzione ad altre istanze SQL per le query distribuite. È anche possibile usare il pool di dati per inserire dati da executor Spark in parallelo a istanze SQL diverse. In questo modo le prestazioni di carico per i set di dati di grandi dimensioni generati dal sistema Hadoop Distributed File System (HDFS) saranno in genere migliori rispetto a quando si passa a una singola istanza di SQL Server. È tuttavia difficile affermare quanto sopra con sicurezza in quanto, volendo, si potrebbero comunque avere più tabelle in un database SQL Server e inserire i dati in parallelo. Le prestazioni dipendono da molti fattori e non vi sono indicazioni o raccomandazioni in tal senso.
In che modo è possibile monitorare la distribuzione dei dati nelle tabelle del pool di dati?
È possibile usare EXECUTE AT per eseguire query su DMV come sys.dm_db_partition_stats per ottenere i dati in ogni tabella locale.
Curl è l'unica opzione per caricare file in HDFS?
No, è possibile usare azdata bdc hdfs cp. Se si specifica la directory radice, il comando copia in modo ricorsivo l'intero albero. È possibile eseguire copie usando questo comando semplicemente modificando i percorsi di origine/destinazione.
In che modo si possono caricare i dati nel pool di dati?
È possibile usare la libreria del connettore MSSQL Spark per semplificare l'inserimento di pool di dati e SQL. Per una procedura guidata, vedere Esercitazione: Inserire dati in un pool di dati di SQL Server con processi Spark.
Se si dispone di molti dati in un percorso di rete (Windows), che contiene molte cartelle/sottocartelle e molti file di testo, come si caricano in HDFS nel cluster Big Data?
Provare usando azdata bdc hdfs cp. Se si specifica la directory radice, il comando copia in modo ricorsivo l'intero albero. È possibile eseguire copie usando questo comando semplicemente modificando i percorsi di origine/destinazione.
È possibile aumentare le dimensioni del pool di archiviazione in un cluster distribuito?
In questo momento non è disponibile alcuna interfaccia azdata
per eseguire questa operazione. È possibile ridimensionare i PVC manualmente. Il ridimensionamento è un'operazione complessa. Vedere Volumi persistenti nella documentazione di Kubernetes.
Virtualizzazione dei dati
Quando è consigliabile usare i server collegati invece di PolyBase?
Le principali differenze e alcuni casi d'uso sono illustrati qui: Domande frequenti su PolyBase.
Quali sono le origini della virtualizzazione dei dati supportate?
Il cluster Big Data supporta la virtualizzazione dei dati da origini ODBC quali SQL Server, Oracle, MongoDB, Teradata e così via. Supporta anche la suddivisione in livelli di archivi remoti, ad esempio Azure Data Lake Store Gen2 e l'archiviazione compatibile con S3, nonché AWS S3A e Azure Blob File System (ABFS).
È possibile usare PolyBase per virtualizzare i dati archiviati in un database SQL di Azure?
Sì, è possibile usare PolyBase nel cluster Big Data per accedere ai dati nel database SQL di Azure.
Perché le istruzioni CREATE TABLE includono la parola chiave EXTERNAL? In che modo la parola chiave EXTERNAL modifica l'istruzione standard CREATE TABLE?
In generale, la parola chiave esterna implica che i dati non si trovino nell'istanza di SQL Server. Ad esempio, è possibile definire una tabella del pool di archiviazione nel livello superiore a una directory HDFS. I dati vengono archiviati in file HDFS, non nei file di database, ma la tabella esterna fornisce l'interfaccia per eseguire query sui file HDFS come una tabella relazionale come se si trovasse nel database.
Questo concetto di accesso ai dati esterni è denominato virtualizzazione dei dati. Per altre informazioni, vedere Introduzione alla virtualizzazione dei dati con PolyBase. Per un'esercitazione sulla virtualizzazione dei dati dai file CSV in HDFS, vedere Virtualizzare i dati CSV dal pool di archiviazione dei cluster Big Data.
Quali sono le differenze tra la virtualizzazione dei dati che usa SQL Server in esecuzione all'interno dei cluster Big Data di SQL Server e SQL Server?
Per un confronto, vedere PolyBase nei cluster Big Data e PolyBase nelle istanze autonome.
Come si fa a riconoscere che una tabella esterna punta al pool di dati invece che al pool di archiviazione?
È possibile determinare il tipo di tabella esterna esaminando il prefisso nel percorso dell'origine dati, ad esempio, sqlserver://, oracle://, sqlhdfs://, sqldatapool://.
Distribuzione
La distribuzione del cluster Big Data non è andata a buon fine. Come faccio a vedere che cosa ha creato il problema?
Vedere Gestire i cluster Big Data di SQL Server con notebook di Azure Data Studio. Vedere anche gli argomenti relativi alla risoluzione dei problemi in Risolvere i problemi relativi a Kubernetes.
Esiste un elenco definitivo di tutti gli elementi che possono essere impostati nella configurazione del cluster Big Data?
Tutte le personalizzazioni che possono essere state eseguite in fase di distribuzione sono documentate qui in Configurare le impostazioni di distribuzione per risorse e servizi cluster. Per Spark, vedere Configurare Apache Spark e Apache Hadoop nei cluster Big Data.
È possibile distribuire SQL Server Analysis Services insieme ai cluster Big Data di SQL Server?
No. In particolare, SQL Server Analysis Services (SSAS) non è supportato in SQL Server su Linux, pertanto sarà necessario installare un'istanza di SQL Server in Windows Server per eseguire SSAS.
Il cluster Big Data è supportato per la distribuzione nel servizio Azure Kubernetes o nel servizio GKS?
Il cluster Big Data può essere eseguito in qualsiasi stack Kubernetes basato sulla versione 1.13 e successive. Tuttavia, non sono state eseguite convalide specifiche del cluster Big Data nel servizio Azure Kubernetes o nel servizio GKS.
Qual è la versione di HDFS e di Spark in esecuzione all'interno del cluster Big Data?
La versione di Spark è 2.4 e la versione di HDFS è 3.2.1. Per informazioni dettagliate sul software open source incluso nel cluster Big Data, vedere Riferimento per il software open source.
Come si installano le librerie e i pacchetti in Spark?
È possibile aggiungere pacchetti in fase di invio di processi seguendo la procedura descritta nel notebook di esempio per l'installazione di pacchetti in Spark.
È necessario usare SQL Server 2019 per usare R e Python per i cluster Big Data di SQL Server?
Machine Learning (ML) Services (R e Python) è disponibile a partire da SQL Server 2017. ML Services è disponibile anche nei cluster Big Data di SQL Server. Per altre informazioni, vedere Che cos'è Machine Learning Services per SQL Server con Python e R?.
Licenze
Come funzionano le licenze SQL Server per i cluster Big Data di SQL Server?
Consultare la guida alle licenze che le illustra in modo più dettagliato. Scaricare il PDF.
Per un riepilogo, guardare il video Licenze SQL Server: cluster Big Data | Dati esposti.
Sicurezza
Il cluster Big Data supporta Microsoft Entra ID ([in precedenza Azure Active Directory](/entra/fundamentals/new-name))?
Non al momento.
È possibile connettersi al master del cluster Big Data usando l'autenticazione integrata?
Sì, è possibile connettersi a vari servizi cluster Big Data usando l'autenticazione integrata (con Active Directory). Per altre informazioni, vedere Distribuire un cluster Big Data di SQL Server in modalità Active Directory. Vedere anche Concetti relativi alla sicurezza per i cluster Big Data di SQL Server.
Come si aggiungono nuovi utenti per vari servizi all'interno del cluster Big Data?
Nella modalità di autenticazione di base (nome utente/password), non è disponibile alcun supporto per l'aggiunta di più utenti per gli endpoint del controller o del gateway Knox/HDFS. L'unico utente supportato per questi endpoint è l'utente radice. Per SQL Server, è possibile aggiungere utenti usando Transact-SQL come si farebbe per qualsiasi altra istanza di SQL Server. Se si distribuisce il cluster Big Data con l'autenticazione di AD per gli endpoint, sono supportati più utenti. Per informazioni dettagliate su come configurare i gruppi di Active Directory in fase di distribuzione, vedere qui. Per altre informazioni, vedere Distribuire un cluster Big Data di SQL Server in modalità Active Directory.
Per consentire al cluster Big Data di eseguire il pull delle immagini dei contenitori più recenti, esiste un intervallo IP in uscita che si possa limitare?
È possibile esaminare gli indirizzi IP usati dai vari servizi in Azure IP Ranges and Service Tags - Public Cloud. Da notare che questi indirizzi IP ruotano periodicamente.
Perché il servizio controller esegua il pull delle immagini del contenitore dal Registro contenitori di Microsoft (MCR), è necessario concedere l'accesso agli indirizzi IP specificati nella sezione MicrosoftContainerRegistry. Un'altra opzione consiste nell'impostare un Registro Azure Container privato e configurare il cluster Big Data per eseguirne il pull dal registro. In tal caso, sarà necessario esporre gli indirizzi IP specificati nella sezione AzureContainerRegistry. Le istruzioni per eseguire questa operazione e uno script sono disponibili in Eseguire una distribuzione offline di un cluster Big Data SQL Server.
È possibile distribuire un cluster Big Data in un ambiente isolato?
Sì, per altre informazioni vedere Eseguire una distribuzione offline di un cluster Big Data di SQL Server.
La funzionalità "Crittografia archiviazione di Azure" si applica per impostazione predefinita anche ai cluster Big Data basati sul servizio Azure Kubernetes?
Ciò dipende dalle configurazioni dello strumento di provisioning di archiviazione dinamiche nel servizio Azure Kubernetes. Per informazioni dettagliate, vedere qui: Procedure consigliate per archiviazione e backup nel servizio Azure Kubernetes.
È possibile eseguire la rotazione delle chiavi per la crittografia SQL Server e HDFS nel cluster Big Data?
Sì. Per altre informazioni, vedere Versioni delle chiavi nei cluster Big Data.
È possibile ruotare le password di oggetti Active Directory generati automaticamente?
Sì, è possibile ruotare facilmente le password degli oggetti Active Directory generati automaticamente grazie a una nuova funzionalità introdotta nei cluster Big Data di SQL Server CU13. Per altre informazioni, vedere Rotazione delle password in AD.
Supporto tecnico
Spark e HDFS sono distribuiti in cluster Big Data di SQL Server supportati da Microsoft?
Sì, Microsoft supporta tutti i componenti forniti all'interno dei cluster Big Data.
Qual è il modello di supporto per SparkML e Machine Learning Services di SQL Server?
I criteri di supporto di ML Services in SQL Server sono uguali a quelli di SQL Server, eccetto per il fatto che ogni versione principale include una nuova versione di runtime. La libreria SparkML stessa è un software open source (OSS). Molti componenti di OSS sono pacchettizzati nel cluster Big Data e questo pacchetto è supportato da Microsoft.
La piattaforma Red Hat Enterprise Linux 8 (RHEL8) è supportata per i cluster Big Data di SQL Server?
Non al momento. Vedere qui per informazioni sulle configurazioni testate.
Strumenti
I notebook disponibili in Azure Data Studio sono essenzialmente nei notebook di Jupyter?
Sì, si tratta dello stesso kernel Jupyter reso visibile di recente in Azure Data Studio.
Lo strumento "azdata" è open source?
No, al momento azdata
non è open source.
Risorse di formazione
Quali opzioni di training sul cluster Big Data sono disponibili?
Ecco alcune risorse utilizzabili:
Workshop: Kubernetes - Da Bare Metal ai cluster Big Data di SQL Server
Workshop: Cluster Big Data di SQL Server - Architettura
Esercitazione: Preparare un'applicazione per il servizio Azure Kubernetes
(PDF)Case study: Carichi di lavoro SQL in esecuzione su Apache Spark nel cluster Big Data di MS SQL Server 2019