Өзгерту

Бөлісу құралы:


Вопросы и ответы по кластерам больших данных SQL Server

В этой статье приведены ответы на часто задаваемые вопросы о Кластеры больших данных понятиях, возможностях, возможностях, развертывании, поддержке и средствах SQL Server.

Рекомендации

Какие рекомендации распространяются на расположение файлов?

В этом отношении вы получаете меньше гибкости по сравнению с настройкой SQL Server на компьютерах без операционной системы на Windows или Linux. В среде Kubernetes эти артефакты являются абстрактными и должны быть переносимыми. В настоящее время существует 2 постоянных тома, для данных и журналов, предоставляемых для каждого модуля pod, который можно настроить. Дополнительные сведения см. в разделе Сохраняемость данных при использовании кластера больших данных SQL Server в Kubernetes.

Нужно ли создавать резервные копии журналов транзакций в Кластерах больших данных SQL Server?

Резервные копии журналов необходимо создавать только для пользовательских баз данных в главном экземпляре SQL Server (в зависимости от модели восстановления или конфигурации высокой доступности). Базы данных пула данных используют только простую модель восстановления. Тот же принцип применим для баз данных хранилища данных*, созданных для PolyBase.

Как узнать, что распределенные запросы используют пул вычислений?

Вы можете использовать существующие динамические административные представления PolyBase, которые были улучшены для использования с Кластерами больших данных. Дополнительные сведения см. в разделе Мониторинг и устранение неполадок PolyBase.

Можно ли настраивать ресурсы Кластера больших данных и управлять ими напрямую через kubectl на сервере API Kubernetes?

Хотя некоторые параметры можно изменить с помощью API Kubernetes или kubectl, такой подход не поддерживается и не рекомендуется. Все операции управления Кластерами больших данных должны выполняться через azdata.

Как выполнить резервное копирование данных, хранящихся в HDFS?

Вы можете использовать любые решения, которые позволяют создавать моментальные снимки или выполнять копирование и синхронизацию хранилища на уровне оборудования через HDFS. Также можно использовать azdata bdc hdfs cp. Дополнительные сведения см. в разделе azdata bdc hdfs.

Основные понятия и возможности

Существует ли способ горизонтального увеличения масштаба хранимой процедуры? Например, запуск в пуле вычислений?

В настоящее время нет. Один из вариантов — развертывание SQL Server в группе доступности Always On. Затем можно использовать вторичные реплики для чтения для выполнения некоторых процессов (например, машинное обучение или оценка, действия по обслуживанию и т. д.).

Как динамически масштабировать модули pod пула?

Этот сценарий сейчас не поддерживается.

Возможно ли резервное копирование внешних таблиц, хранящихся в пулах данных?

База данных в экземпляре пула данных не имеет метаданных о внешних таблицах, как и любая пользовательская база данных. Вы можете выполнить резервное копирование и восстановление, но во избежание несогласованных результатов необходимо убедиться, что метаданные внешней таблицы в базе данных метаданных в главном экземпляре SQL синхронизированы.

Предоставляет ли пул данных сегментирование?

Пул данных — это концепция распределенной таблицы. Сегментирование обычно считается концепцией OLTP. В настоящее время этот вариант не поддерживается.

Когда следует использовать пул данных или пул носителей для хранения необработанных данных?

Термин "пул" описывает коллекцию однородных служб или приложений. Например, пул данных — это набор ресурсов для хранения и вычисления SQL Server с отслеживанием состояния, а пул носителей — набор служб HDFS и Spark. Главный экземпляр SQL Server может быть одним или несколькими экземплярами, которые можно настроить в группе доступности. Главный экземпляр SQL Server — это обычный экземпляр SQL Server в Linux, и вы можете использовать любую функцию, доступную в Linux. Начните с модели данных, сущностей и служб/приложений, которые будут работать с сущностью. Все данные не должны храниться в одном месте, например SQL Server или HDFS или в пуле данных. На основе анализа данных можно хранить большую часть данных в HDFS, обрабатывать их в более эффективном формате и предоставлять другим службам. Остальные данные будут храниться в главном экземпляре SQL.

Поддерживает ли Кластер больших данных SQL Server библиотеки и вычисления для глубокого обучения на основе GPU (PyTorch, Keras, специальные библиотеки образов и т. д.)?

Этот сценарий сейчас не поддерживается.

Можно ли настроить несколько заявок на тома для пула?

Каждый модуль pod может иметь только два постоянных тома. Вы можете абстрагировать том на уровне ОС и использовать его для постоянного хранения. Например, можно создать раздел ОС RAID 0 с помощью нескольких дисков и использовать его для постоянного тома с помощью средства подготовки локального хранилища. Сейчас не существует способа использовать больше постоянных томов на каждый модуль pod. Постоянные тома сопоставляются с каталогами внутри контейнера, и это фиксированная конфигурация. Дополнительные сведения о постоянных томах см. в разделе "Постоянные тома" в документации по Kubernetes.

Если настроить несколько поставщиков и несколько дисков, будет ли обновлена конфигурация HDFS с учетом всех заявок на тома данных?

Пул носителей можно настроить для использования определенного класса хранения во время развертывания. См. раздел Сохраняемость данных при использовании кластера больших данных SQL Server в Kubernetes.

Какие варианты доступа к хранилищу на основе Ceph существуют?

Распределение по уровням HDFS позволяет прозрачно интегрировать протоколы на основе S3. Дополнительные сведения см. в разделе Подключение S3 для распределения по уровням HDFS в кластере больших данных.

Сохраняются ли данные в HDFS после обновления?

Да, данные будут сохранены, так как они поддерживаются постоянными томами, а обновление просто развертывает существующие модули pod с новыми образами.

Как распределение по уровням HDFS контролирует кэш?

При использовании уровней HDFS данные кэшируются в локальной системе HDFS, работающей в Кластере больших данных, чтобы пользователи могли присоединять большие озера данных без необходимости переносить все данные. Существует настраиваемый объем пространства, выделенный для кэша, который по умолчанию равен 2 %. Данные хранятся в кэше, но будут удалены при превышении этого порогового значения. Безопасность также поддерживается в озере, все списки управления доступом применяются. Дополнительные сведения см. в статье Настройка уровней HDFS в Кластерах больших данных.

Можно ли использовать SQL Server 2019 для виртуализации Azure Data Lake Store 2-го поколения? Будет ли эта интеграция учитывать разрешение на уровне папки?

Да, вы можете виртуализировать данные, хранящиеся в ADLS 2-го поколения, с помощью уровней HDFS. После подключения уровней HDFS к ADLS 2-го поколения пользователи получают возможность запрашивать данные HDFS и выполнять с ними задания Spark. Подключенное хранилище отображается в HDFS для Кластера больших данных в расположении, указанном параметром --mount-path, и пользователи могут работать с этим путем подключения, как с локальным хранилищем. Дополнительные сведения см. в статье Настройка уровней HDFS в Кластерах больших данных. Дополнительные сведения о разрешениях уровня HDFS см. в разделе Управление разрешениями HDFS для Кластеров больших данных SQL Server.

Каковы параметры высокой доступности и избыточности по умолчанию для главного узла в службе Azure Kubernetes (AKS)?

Уровень управления AKS поддерживает соглашение об уровне обслуживания для времени доступности на уровне 99,95 %. Узлы кластера AKS (рабочие узлы) используют Зоны доступности. Дополнительные сведения см. в разделе Зоны доступности AKS. Зоны доступности Azure обеспечивают высокий уровень доступности и защищают приложения и данные от сбоев в центрах обработки данных. AKS поддерживает доступность 99,9 % для кластеров, которые не используют Зоны доступности. Дополнительные сведения см. в статье Соглашение об уровне обслуживания для службы Azure Kubernetes (AKS).

Существует ли способ сохранить журналы заданий YARN и Spark?

Перезапуск sparkhead не приведет к потере журналов, так как эти журналы находятся в HDFS. Журналы заданий Spark по-прежнему будут отображаться в расположении /gateway/default/sparkhistory. Что касается журналов контейнеров Yarn, эти приложения не будут отображаться в пользовательском интерфейсе Yarn, так как Yarn RM перезапускается, но эти журналы Yarn все еще находятся в HDFS, и их можно связать с сервером журналов Spark. Следует всегда использовать сервер журналов Spark в качестве точки входа для диагностики приложений Spark.

Существует ли способ отключить функцию кэширования для всех пулов?

1 % общего объема хранилища HDFS по умолчанию резервируется для кэширования подключенных данных. Кэширование настраивается глобально для всех подключенных ресурсов. В настоящее время нет доступного способа отключить его, однако можно настроить процентное соотношение с помощью параметра hdfs-site.dfs.provided.cache.capacity.fraction. Этот параметр указывает долю общей емкости в кластере, которую можно использовать для кэширования данных из предоставленных хранилищ. Сведения об изменении этого параметра см. в разделе Настройка параметров Кластера больших данных после развертывания. Дополнительные сведения см. в статье Настройка уровней HDFS в Кластерах больших данных SQL Server.

Как запланировать хранимые процедуры SQL в Кластере больших данных SQL Server 2019?

Используйте службу агента SQL Server в главном экземпляре SQL Server кластера больших данных.

Поддерживает ли Кластер больших данных собственные сценарии работы с данными временных рядов, например созданными с помощью Интернета вещей?

В настоящее время InfluxDB в Кластере больших данных используется только для хранения данных мониторинга, собранных в Кластере больших данных, и не предоставляется как внешняя конечная точка.

Можно ли использовать предоставленный InfluxDB в качестве базы данных временных рядов для данных клиента?

В настоящее время InfluxDB в Кластере больших данных используется только для хранения данных мониторинга, собранных в Кластере больших данных, и не предоставляется как внешняя конечная точка.

Как добавить новую базу данных в группу доступности?

В Кластере больших данных конфигурация HA создает группу доступности с именем containedag, которая также включает в себя системные базы данных, реплицируемые между репликами. Базы данных, созданные в результате рабочих процессов CREATE DATABASE или RESTORE, автоматически добавляются в автономную группу доступности и заполняются начальными значениями. До SQL Server 2019 (15.0) с накопительным пакетом обновлений 2 (CU2) необходимо было подключиться к физическому экземпляру в Кластере больших данных, восстановить базу данных и добавить ее в containedag. Дополнительные сведения см. в разделе Развертывание Кластера больших данных SQL Server с высокой доступностью.

Можно ли настроить ресурсы ядра и памяти для компонентов, работающих в Кластере больших данных?

В настоящее время можно задать память для экземпляров SQL с помощью sp_configure, как в SQL Server. Для ядер можно использовать ALTER SERVER CONFIGURATION SET PROCESS AFFINITY. По умолчанию контейнеры видят все ЦП на узле, и в настоящее время у нас нет способа указать ограничения ресурсов с помощью Kubernetes. Для пула вычислительных ресурсов, пула данных или пула носителей конфигурацию можно выполнить с помощью инструкции EXECUTE AT DATA_SOURCE из главного экземпляра SQL Server.

Что происходит, когда один из рабочих узлов Kubernetes завершает работу или происходит сбой?

Модули pod, которые не привязаны к соответствующему рабочему узлу, будут перемещены на другой узел в кластере Kubernetes, если ресурсов достаточно. В противном случае модули pod будут недоступны, что приведет к простоям.

Происходит ли автоматическое перераспределение Кластера больших данных при добавлении узла в кластер Kubernetes?

Это действие зависит только от Kubernetes. Помимо размещения pod с помощью меток узлов, не существует механизмов управления перебалансировкой ресурсов Kubernetes в Кластере больших данных.

Что будет с ресурсами Кластера больших данных при удалении узла из кластера Kubernetes?

Это действие эквивалентно завершению работы главного узла. Существуют механизмы для оркестрации этих процессов в Kubernetes с помощью меток taints. Обычно это необходимо для обновления или обслуживания узла. Дополнительные сведения см. в документации по Kubernetes о taints и допусках.

Будет ли Hadoop, объединенный с Кластером больших данных, выполнять репликацию данных?

Да, коэффициент репликации является одной из доступных конфигураций для HDFS. Дополнительные сведения см. в разделе Настройка постоянных томов.

Пересекается ли Кластер больших данных с Synapse с точки зрения функциональности и интеграции?

Это зависит от ваших вариантов использования и требований. Кластер больших данных предоставляет полную область поверхности SQL Server в дополнение к локальной среде Spark и HDFS, поддерживаемой Корпорацией Майкрософт. Кластер больших данных позволяет клиенту SQL Server интегрировать аналитические и большие данные. Azure Synapse является исключительно аналитической платформой, предлагающей первоклассные возможности для клиентов в качестве управляемой службы в облаке с упором на масштабируемую аналитику. Azure Synapse не предназначен для обработки операционной рабочей нагрузки. Кластер больших данных предоставляет аналитику базы данных гораздо ближе к операционному хранилищу.

Использует ли SQL Server HDFS в качестве своего хранилища в Кластере больших данных SQL Server?

Файлы базы данных экземпляра SQL Server не хранятся в HDFS, однако SQL Server может запрашивать HDFS с помощью интерфейса внешней таблицы.

Какие варианты распространения для хранения данных доступны в распределенных таблицах в каждом пуле данных?

ROUND_ROBIN и REPLICATED. ROUND_ROBIN (циклический перебор) используется по умолчанию. HASH недоступен.

Входит ли сервер Spark Thrift в Кластер больших данных? Если да, то доступна ли конечная точка ODBC для подключения к таблицам хранилища метаданных Hive?

В настоящее время мы предоставляем хранилище метаданных Hive (HMS) через протокол Thrift. Мы задокументировали протокол, но еще не открыли конечную точку ODBC. Доступ возможен через протокол Hive Metastore HTTP. Дополнительные сведения см. в статье о протоколе хранилища метаданных Hive HTTP.

Загрузка данных

Можно ли принимать данные из SnowFlake в Кластер больших данных?

SQL Server на Linux (также применимо к главному экземпляру SQL Server в Кластере больших данных) не поддерживает универсальный источник данных ODBC, который позволяет установить сторонний драйвер ODBC (SnowFlake, DB2, PostgreSQL и т. д.) и запросить его. В настоящее время эта функция доступна только в SQL Server 2019 (15.0) на Windows. В Кластере больших данных вы можете считывать данные через Spark с помощью JDBC и принимать их в SQL Server с помощью соединителя MSSQL Spark.

Можно ли принимать данные с помощью пользовательского источника данных ODBC в Кластер больших данных?

SQL Server на Linux (также применимо к главному экземпляру SQL Server в Кластере больших данных) не поддерживает универсальный источник данных ODBC, который позволяет установить сторонний драйвер ODBC (SnowFlake, DB2, PostgreSQL и т. д.) и запросить его.

Как импортировать данные в ту же таблицу с помощью PolyBase CTAS вместо создания новой таблицы при каждом запуске CTAS?

Можно использовать подход INSERT..SELECT, чтобы избежать необходимости создавать новую таблицу каждый раз.

Каковы преимущества и рекомендации по загрузке данных в пул данных, а не напрямую в главный экземпляр в качестве локальных таблиц?

Если у главного экземпляра SQL Server достаточно ресурсов для выполнения аналитической рабочей нагрузки, это всегда самый быстрый вариант. Пул данных помогает в том случае, если требуется перенести выполнение на другие экземпляры SQL для распределенных запросов. Кроме того, пул данных можно использовать для приема данных от исполнителей Spark параллельно с различными экземплярами SQL. Таким образом, производительность нагрузки для больших наборов данных, создаваемых из распределенной файловой системы Hadoop (HDFS), обычно выше, чем у одного экземпляра SQL Server. Однако сложно дать точные оценки, так как в SQL Server может быть несколько таблиц, которые можно вставлять параллельно при необходимости. Производительность зависит от многих факторов. Универсальных рекомендаций не существует.

Как отслеживать распределение данных в таблицах пула данных?

Используйте инструкцию EXECUTE AT для запроса динамических административных представлений, например sys.dm_db_partition_stats, чтоб получить данные в каждой локальной таблице.

Является ли CURL единственным вариантом отправки файлов в HDFS?

Нет, вы можете использовать azdata bdc hdfs cp. При предоставлении корневого каталога команда рекурсивно копирует все дерево. Вы можете выполнять копирование с помощью этой команды, просто меняя исходные и целевые пути.

Как загрузить данные в пул данных?

Используйте библиотеку соединителей MSSQL Spark для приема данных в SQL и пул данных. Пошаговые инструкции см. в учебнике Прием данных в пул данных SQL Server с помощью заданий Spark.

Если у меня много данных в сетевом пути (Windows), который содержит множество папок, вложенных папок и текстовых файлов, как передать их в HDFS в Кластере больших данных?

Используйте azdata bdc hdfs cp. При предоставлении корневого каталога команда рекурсивно копирует все дерево. Вы можете выполнять копирование с помощью этой команды, просто меняя исходные и целевые пути.

Можно ли увеличить размер пула носителей в развернутом кластере?

В данный момент нет интерфейса azdata для выполнения этой операции. Вы можете изменить размер требуемых PVC вручную. Изменение размера — это сложная операция. См. раздел "Постоянные тома" в документации по Kubernetes.

Виртуализация данных

Когда следует использовать связанные серверы, а когда — PolyBase?

Основные различия и варианты использования см. в часто задаваемых вопросах о PolyBase.

Какие источники виртуализации данных поддерживаются?

Кластер больших данных поддерживает виртуализацию данных из источников ODBC — SQL Server, Oracle, MongoDB, Teradata и т. д. Он также поддерживает разделение на уровни для удаленных хранилищ, таких как Azure Data Lake Store 2-го поколения и хранилище, совместимое с S3, а также AWS S3A и Azure Blob File System (ABFS).

Можно ли использовать PolyBase для виртуализации данных, хранящихся в базе данных Azure SQL?

Да, PolyBase можно использовать в Кластере больших данных для доступа к данным в Базе данных SQL Azure.

Почему инструкции CREATE TABLE включают в себя ключевое слово EXTERNAL? Что ключевое слово EXTERNAL добавляет к инструкциям CREATE TABLE?

Как правило, ключевое слово external подразумевает, что данные не находятся в экземпляре SQL Server. Например, можно определить таблицу пула носителей поверх каталога HDFS. Данные хранятся в HDFS-файлах, а не в файлах базы данных, но внешняя таблица предоставляет интерфейс для запроса файлов HDFS в качестве реляционной таблицы, как если бы она находилась в базе данных.
Эта концепция доступа к внешним данным называется виртуализацией данных. Дополнительные сведения см. в статье Общие сведения о виртуализации с помощью PolyBase. Руководство по виртуализации данных из CSV-файлов в HDFS см. в статье [Виртуализация данных CSV из Кластеров больших данных пула носителей.

В чем разница между виртуализацией данных с помощью SQL Server в Кластерах больших данных SQL Server и просто SQL Server?

Как можно легко определить, что внешняя таблица указывает на пул данных или на пул носителей?

Тип внешней таблицы можно определить, просмотрев префикс расположения источника данных, например sqlserver://, oracle://, sqlhdfs://, sqldatapool://.

Развертывание

Развертывание Кластера больших данных завершилось сбоем. Как узнать, что пошло не так?

Существует ли полный список всех элементов, которые можно задать в конфигурации Кластера больших данных?

Все настройки, которые можно выполнить во время развертывания, описаны в статье Настройка параметров развертывания для ресурсов и служб кластера. Для Spark см. Настройка Apache Spark и Apache Hadoop в Кластерах больших данных.

Можно ли развертывать SQL Server Analysis Services вместе с Кластерами больших данных SQL Server?

№ В частности, SQL Server Analysis Services (SSAS) не поддерживается в SQL Server на Linux, поэтому для запуска SSAS потребуется установить экземпляр SQL Server на сервере Windows.

Поддерживается ли Кластер больших данных для развертывания в EKS или GKS?

Кластер больших данных может работать в любом стеке Kubernetes, основанном на версии 1.13 и более поздних. Однако мы не проверяли Кластер больших данных специально для EKS или GKS.

Какая версия HDFS и Spark используется в Кластере больших данных?

Spark — 2,4, а HDFS — 3.2.1. Полные сведения о ПО с открытым кодом, включенном в Кластер больших данных, см. в разделе Справочник по ПО с открытым кодом.

Как устанавливать библиотеки и пакеты в Spark?

Пакеты можно добавлять при отправке задания, выполнив действия, описанные в примере записной книжки для установки пакетов в Spark.

Нужно ли использовать SQL Server 2019, чтобы использовать R и Python для Кластеров больших данных SQL Server?

Службы Машинного обучения (R и Python) доступны начиная с SQL Server 2017. Службы машинного обучения доступны также в Кластерах больших данных SQL Server. Дополнительные сведения см. в статье Что такое Службы машинного обучения SQL Server с Python и R?.

Лицензирование

Как работают лицензии SQL Server для Кластеров больших данных SQL Server?

Дополнительные сведения см. в руководстве по лицензированию (загрузите PDF-файл).
Общие сведения см. в видео Лицензирование SQL Server: Кластеры больших данных | Предоставленные данные.

Безопасность

Поддерживает ли кластер больших данных идентификатор Microsoft Entra ([прежнее название Azure Active Directory](/entra/fundamentals/new-name)?

В настоящее время нет.

Можно ли подключиться к главному экземпляру Кластера больших данных с помощью встроенной проверки подлинности?

Да, вы можете подключаться к различным службам Кластеров больших данных с помощью встроенной проверки подлинности (с Active Directory). Дополнительные сведения см. в статье Развертывание кластера больших данных SQL Server в режиме Active Directory. Также см. Основные понятия безопасности для Кластеров больших данных.

Как добавлять новых пользователей для различных служб в Кластере больших данных?

В режиме обычной проверки подлинности (имя пользователя и пароль) не поддерживается добавление нескольких пользователей для контроллеров или шлюза Knox/конечных точек HDFS. Для этих конечных точек поддерживается только привилегированный пользователь. Для SQL Server можно добавить пользователей с помощью Transact-SQL, как и для любого другого экземпляра SQL Server. При развертывании Кластера больших данных с проверкой подлинности AD для конечных точек поддерживается несколько пользователей. Дополнительные сведения о настройке групп AD во время развертывания см. здесь. Дополнительные сведения см. в статье Развертывание кластера больших данных SQL Server в режиме Active Directory.

Когда Кластер больших данных извлекает последние образы контейнеров, можно ли ограничить диапазон исходящих IP-адресов?

Вы можете просмотреть IP-адреса, используемые различными службами, в статье Диапазоны IP-адресов Azure и теги служб — общедоступное облако. Обратите внимание, что эти IP-адреса периодически меняются.
Чтобы служба контроллера могла извлечь образы контейнеров из Microsoft Container Registry (MCR), необходимо предоставить доступ к IP-адресам, указанным в разделе MicrosoftContainerRegistry. Кроме того, можно настроить частный реестр контейнеров Azure и выполнить конфигурацию Кластера больших данных для извлечения из него. В этом случае необходимо предоставить IP-адреса, указанные в разделе AzureContainerRegistry. Инструкции по выполнению этой задачи и скрипт см. в разделе Выполнение автономного развертывания кластера больших данных SQL Server.

Можно ли развернуть Кластер больших данных в среде, отключенной от сети?

Да. Дополнительные сведения см. в разделе о том, как выполнить автономное развертывание кластера больших данных SQL Server.

Применяется ли функция шифрования службы хранилища Azure по умолчанию к кластерам больших данных на основе AKS?

Это зависит от конфигураций средства динамической подготовки хранилища в службе Azure Kubernetes (AKS). Дополнительные сведения см. в статье Рекомендации по хранению и резервному копированию в Службе Azure Kubernetes (AKS).

Можно ли менять ключи для шифрования SQL Server и HDFS в Кластере больших данных?

Да. Дополнительные сведения см. в статье Версии ключей в кластере больших данных.

Можно ли менять пароли у автоматически созданных объектов Active Directory?

Да, вы можете это делать у таких объектов с помощью новой функции, реализованной в накопительном пакете обновлений 13 (CU13) для Кластеров больших данных SQL Server. Дополнительные сведения см. в статье Ротация паролей в Azure Active Directory.

Поддержка

Поддерживает ли Майкрософт развертывание Spark и HDFS в Кластерах больших данных SQL Server?

Да, поддерживаются все компоненты, поставляемые в Кластерах больших данных.

Какая модель поддержки действует для службы SparkML и службы машинного обучения SQL Server?

Политика поддержки служб машинного обучения SQL Server аналогична политике поддержке SQL Server, за исключением того, что каждый основной выпуск поставляется с новой версией среды выполнения. Библиотека SparkML — это программное обеспечение с открытым кодом. Мы упаковываем множество компонентов с открытым кодом в Кластер больших данных, и Майкрософт поддерживает это.

Поддерживается ли платформа Red Hat Enterprise Linux 8 (RHEL8) для Кластеров больших данных SQL Server?

В настоящее время нет. Список проверенных конфигураций см. здесь.

Инструменты

Доступны ли в Azure Data Studio записные книжки, в частности, записные книжки Jupyter?

Да, здесь используется то же ядро Jupyter, которое недавно было представлено в Azure Data Studio.

Средство azdata имеет открытый код?

Нет, azdata в данный момент не является программным обеспечением с открытым кодом.

Обучающие материалы

Какие варианты обучения Кластеров больших данных доступны?