HDInsight в AKS — часто задаваемые вопросы

Статья
10/18/2023

В этой статье рассматриваются некоторые распространенные вопросы об Azure HDInsight в AKS.

Общие

Что такое HDInsight в AKS?

HDInsight в AKS — это новая версия HDInsight, которая предоставляет корпоративную готовую управляемую кластерную службу с новыми проектами аналитики с открытым исходным кодом, такими как Apache Flink (для потоковой передачи), Trino (для аналитики adhoc и бизнес-аналитики) и Apache Spark. Дополнительные сведения см. в этом обзоре.
Какие фигуры кластера поддерживают HDInsight в AKS?

HDInsight в AKS поддерживает Trino, Apache Flink и Apache Spark для начала. Однако другие фигуры кластера, такие как Kafka, Hive и т. д., находятся на схеме развития.
Разделы справки начать работу с HDInsight в AKS?

Чтобы приступить к работе, посетите Azure Marketplace и найдите Azure HDInsight в службе AKS и обратитесь к началу работы.
Что происходит с существующим HDInsight на виртуальной машине и кластерами, которые я выполняю сегодня?

В HDInsight (HDInsight на виртуальной машине нет изменений). Все существующие кластеры продолжают работать, и вы можете продолжать создавать и масштабировать новые кластеры HDInsight.
Какая операционная система поддерживается в HDInsight в AKS?

HDInsight в AKS основан на ОС Mariner. Дополнительные сведения см. в разделе "Версия ОС".
В каких регионах доступны HDInsight в AKS?

Список поддерживаемых регионов см. в разделе "Доступность регионов".
Каковы затраты на развертывание HDInsight в кластере AKS?

Дополнительные сведения о ценах см. в статье HDInsight по ценам AKS.

Управление кластером

Можно ли одновременно запускать несколько кластеров?

Да, можно одновременно запускать столько кластеров, сколько требуется для каждого пула кластеров. Однако убедитесь, что вы не ограничены квотой для вашей подписки. Максимальное число узлов, разрешенных в пуле кластера, составляет 250 (в общедоступной предварительной версии).
Можно ли установить или добавить дополнительные подключаемые модули или библиотеки в кластере?

Да, можно установить пользовательские подключаемые модули и библиотеки в зависимости от фигур кластера.
- Для Trino см. инструкции по установке пользовательских подключаемых модулей.
- Для Spark см. сведения об управлении библиотеками в Spark.
Можно ли использовать SSH в кластере?

Да, вы можете SSH-интерфейс в кластере через webssh и выполнять запросы и отправлять задания непосредственно оттуда.

Хранилище мета-данных

Можно ли использовать внешнее хранилище метаданных для подключения к моему кластеру?

Да, можно использовать внешнее хранилище метаданных. Однако мы поддерживаем только База данных SQL Azure как внешнее пользовательское хранилище метаданных.
Можно ли совместно использовать хранилище метаданных в нескольких кластерах?

Да, вы можете совместно использовать хранилище метаданных в нескольких HDInsight AKS.
Какая версия хранилища метаданных Hive поддерживается?

Хранилище метаданных Hive версии 3.1.2

Рабочие нагрузки

Трино

Что такое Trino?

Trino — это открытый код федеративный и распределенный обработчик SQL-запросов, который позволяет запрашивать данные, размещенные в разных источниках данных, без перемещения в центральное хранилище данных. Вы можете запросить данные с помощью ANSI SQL, вам не нужно учиться на новом языке. Дополнительные сведения см. в обзоре Trino.
Какие все соединители поддерживаются?

HDInsight в AKS Trino поддерживает несколько соединителей. Дополнительные сведения см. в этом списке соединителей Trino. Мы продолжаем добавлять новые соединители как и когда новые соединители доступны в версии с открытым исходным кодом.
Можно ли добавить каталоги в существующий кластер?

Да, в существующий кластер можно добавить поддерживаемые каталоги. Дополнительные сведения см. в разделе "Добавление каталогов в существующий кластер".

Apache Flink

Что такое Apache Flink?

Apache Flink — это лучший аналитический модуль с открытым исходным кодом для потоковой обработки и выполнения вычислений с отслеживанием состояния по несвязанным и привязанным потокам данных. Он может выполнять вычисления на скорости в памяти и в любом масштабе. Flink в HDInsight в AKS предлагает управляемый Apache Flink с открытым исходным кодом. Дополнительные сведения см. в обзоре Flink.
Поддерживается ли режим сеанса и приложения в Apache Flink?

В HDInsight в AKS Flink в настоящее время поддерживает кластеры в режиме сеанса.
Что такое управление серверной частью состояния и как это делается в HDInsight в AKS?

Серверные серверы определяют, где хранится состояние. При активации проверка направления состояние сохраняется при проверка точках для защиты от потери данных и последовательного восстановления. Как состояние представляется внутренне, а также как и где оно сохраняется при проверка точках, зависит от выбранной серверной части состояния. Дополнительные сведения см. в обзоре Flink

Apache Spark

Что такое Apache Spark?

Apache Spark — это платформа обработки данных, которая может быстро выполнять задачи обработки больших наборов данных, а также распределять задачи обработки данных на нескольких компьютерах или в тандеме с другими распределенными вычислительными средствами.
Какие API языка поддерживаются в Spark?

Azure HDInsight в AKS поддерживает Python и Scala.
Поддерживается ли внешнее хранилище метаданных в HDInsight в AKS Spark?

HDInsight в AKS поддерживает подключение к внешнему хранилищу метаданных. В настоящее время только база данных SQL Azure поддерживается как внешнее хранилище метаданных.
Каковы различные способы отправки заданий в HDInsight в AKS Spark?

Задания можно отправлять в HDInsight в AKS Spark с помощью Jupyter Notebook, Zeppelin Notebook, пакета SDK и терминала кластера. Дополнительные сведения см. в разделе "Отправка заданий и управление ими" в кластере Spark в HDInsight в AKS

Share via

HDInsight в AKS — часто задаваемые вопросы

Общие

Управление кластером

Хранилище мета-данных

Рабочие нагрузки

Трино

Apache Flink

Apache Spark

Дополнительные ресурсы