Azure HDInsight. Часто задаваемые вопросы

В этой статье приводятся ответы на некоторые распространенные вопросы о запуске Azure HDInsight.

Создание или удаление кластеров HDInsight

Как подготовить к работе кластер HDInsight?

Сведения о типах кластеров HDInsight и методах подготовки см. в разделе Настройка кластеров в HDInsight с помощью Apache Hadoop, Apache Spark, Apache Kafka и др.

Как удалить существующий кластер HDInsight?

Дополнительные сведения об удалении более не используемого кластера см. в разделе Удаление кластера HDInsight.

Старайтесь, чтобы между операциями создания и удаления проходило хотя бы 30–60 минут. В противном случае операция может завершиться неудачно со следующим сообщением об ошибке:

Conflict (HTTP Status Code: 409) error when attempting to delete a cluster immediately after creation of a cluster. If you encounter this error, wait until the newly created cluster is in operational state before attempting to delete it.

Как выбрать правильное количество ядер или узлов для рабочей нагрузки?

Соответствующее количество ядер и другие параметры конфигурации зависят от многих факторов.

Дополнительные сведения см. в разделе Планирование ресурсов для кластеров HDInsight.

Каковы различные типы узлов в кластере HDInsight?

Каковы рекомендации по созданию больших кластеров HDInsight?

  1. Рекомендуется настраивать кластеры HDInsight с пользовательской базой данных Ambari DB, чтобы улучшить масштабируемость кластера.
  2. Используйте Azure Data Lake Storage 2-го поколения для создания кластеров HDInsight, чтобы воспользоваться преимуществами более высокой пропускной способности и других характеристик производительности Azure Data Lake Storage 2-го поколения.
  3. Головные узлы должны быть достаточно большими, чтобы разместить на них несколько главных служб.
  4. Для некоторых особых рабочих нагрузок, таких как Interactive Query, также требуются узлы Zookeeper большего размера. Рассмотрите как минимум восемь основных виртуальных машин.
  5. В случае Hive и Spark используйте внешние хранилище метаданных Hive.

Отдельные компоненты

Можно ли установить дополнительные компоненты в кластер?

Да. Для установки дополнительных компонентов или настройки конфигурации кластера, используйте следующее.

  • Скрипты во время или после создания. Скрипты вызываются с помощью действия скрипта. Действие скрипта — это параметр конфигурации, который можно использовать на портале Azure, в командлетах HDInsight Windows PowerShell или в пакете SDK .NET HDInsight. Этот параметр конфигурации можно использовать на портале Azure, в командлетах HDInsight Windows PowerShell или в пакете SDK .NET HDInsight.

  • Платформу приложений HDInsight для установки приложений.

Список поддерживаемых компонентов см. в разделе Какие компоненты и версии Apache Hadoop доступны в HDInsight?

Можно ли обновить отдельные компоненты, предварительно установленные в кластере?

Если вы обновите встроенные компоненты или приложения, предварительно установленные в кластере, итоговая конфигурация не будет поддерживаться Майкрософт. Эти конфигурации системы не проверялись Майкрософт. Попробуйте использовать другую версию кластера HDInsight, в которой уже есть обновленная версия предварительно установленного компонента.

Например, обновление Hive в качестве отдельного компонента не поддерживается. HDInsight — управляемая служба, и многие службы интегрированы с сервером Ambari и протестированы. Обновление Hive само по себе вызывает изменение индексированных двоичных файлов других компонентов и приводит к проблемам интеграции компонентов в вашем кластере.

Можно ли запускать Spark и Kafka в одном кластере HDInsight?

Нет, невозможно запустить Apache Kafka и Apache Spark в одном том же кластере HDInsight. Создайте отдельные кластеры для Kafka и Spark, чтобы избежать проблем состязания за ресурсы.

Как изменить часовой пояс в Ambari?

  1. Откройте веб-интерфейс Ambari по адресу https://CLUSTERNAME.azurehdinsight.net, где CLUSTERNAME — имя вашего кластера.

  2. В правом верхнем углу выберите admin | Settings.

    Ambari Settings.

  3. В окне параметров пользователя выберите новый часовой пояс в раскрывающемся списке Timezone и нажмите кнопку "Сохранить".

    Ambari User Settings.

Хранилище мета-данных

Как выполнить миграцию из существующего хранилища метаданных в Базу данных SQL Azure?

Подробные сведения о миграции из SQL Server в Базу данных SQL Azure см. в учебнике Автономная миграция из SQL Server в отдельную базу данных или базу данных в пуле в Базе данных SQL Azure с помощью DMS.

Удаляется ли хранилище метаданных Hive при удалении кластера?

Это зависит от типа хранилища метаданных, для использования которого настроен ваш кластер.

Для хранилища метаданных по умолчанию: хранилище метаданных по умолчанию является частью жизненного цикла кластера. При удалении кластера соответствующее хранилище метаданных и метаданные также удаляются.

Для настраиваемого хранилища метаданных: жизненный цикл хранилища метаданных не привязан к жизненному циклу кластера. Таким образом, вы можете создавать и удалять кластеры без потери метаданных. Метаданные, такие как схемы Hive, сохраняются даже после удаления и повторного создания кластера HDInsight.

Дополнительную информацию см. в статье Использование внешних хранилищ метаданных в Azure HDInsight.

При миграции хранилища метаданных Hive выполняется ли также перенос политик по умолчанию базы данных Ranger?

Нет, определение политики находится в базе данных Ranger, поэтому перенос политик базы данных Ranger выполняется при миграции этой базы данных.

Можно ли перенести хранилище метаданных Hive из кластера Корпоративного пакета безопасности (ESP) в кластер не ESP, и наоборот?

Да, можно переносить хранилище метаданных Hive из ESP в кластер не ESP.

Как оценить размер базы данных хранилища метаданных Hive?

Хранилище метаданных Hive используется для хранения метаданных источников данных, используемых сервером Hive. Требования к размеру частично зависят от количества и сложности ваших источников данных Hive. Предварительная оценка этих элементов невозможна. Как описано в разделе Рекомендации по хранилищу метаданных Hive, можно начать с уровня S2. Этот уровень предоставляет 50 DTU и 250 ГБ хранилища, и если вы увидите узкие места, увеличьте масштаб базы данных.

Поддерживается ли любая другая база данных, кроме базы данных SQL Azure, в качестве внешнего хранилища метаданных?

Нет, Майкрософт поддерживает только базу данных SQL Azure в качестве внешнего пользовательского хранилища метаданных.

Можно ли совместно использовать хранилище метаданных в нескольких кластерах?

Да, вы можете совместно использовать пользовательское хранилище метаданных в нескольких кластерах, если они используют одну и ту же версию HDInsight.

Подключение и виртуальные сети

Каковы последствия блокировки портов 22 и 23 в моей сети?

Если вы блокируете порты 22 и 23, то у вас не будет доступа к кластеру по протоколу SSH. Эти порты не используются службой HDInsight.

Дополнительные сведения см. в следующих документах:

Можно ли развернуть дополнительную виртуальную машину в той же подсети, что и кластер HDInsight?

Да, вы можете развернуть дополнительную виртуальную машину в той же подсети, что и кластер HDInsight. Возможны следующие конфигурации.

Следует ли хранить данные на локальном диске граничного узла?

Нет, хранение данных на локальном диске не рекомендуется. В случае сбоя узла все хранящиеся локально данные будут потеряны. Мы рекомендуем хранить данные в Azure Data Lake Storage 2-го поколения или хранилище BLOB-объектов Azure, либо подключить общую папку службы "Файлы Azure" для хранения данных.

Можно ли добавить существующий кластер HDInsight в другую виртуальную сеть?

Нет, нельзя. Виртуальная сеть должна быть указана во время подготовки. Если во время подготовки виртуальная сеть не была указана, то при развертывании создается внутренняя сеть, недоступная извне. Дополнительные сведения см. в разделе Добавление HDInsight в существующую виртуальную сеть.

Безопасность и сертификаты

Каковы рекомендации по защите от вредоносных программ в кластерах Azure HDInsight?

Сведения о защите от вредоносных программ см. в разделе Microsoft Antimalware для облачных служб и виртуальных машин Azure.

Как создать keytab для кластера HDInsight ESP?

Создайте keytab Kerberos для вашего имени пользователя домена. Позже этот keytab можно использовать для проверки подлинности в удаленных присоединенных к домену кластерах без ввода пароля. Имя домена указано прописными буквами.


ktutil
ktutil: addent -password -p <username>@<DOMAIN.COM> -k 1 -e aes256-cts-hmac-sha1-96
Password for <username>@<DOMAIN.COM>: <password>
ktutil: wkt <username>.keytab
ktutil: q

Когда требуется соль для шифрования AES256 при создании ключа?

Если имя клиента и доменное имя отличаются (например, TenantName — bob@CONTOSO.ONMICROSOFT.COM и DomainName— ), bob@CONTOSOMicrosoft.ONMICROSOFT.COMнеобходимо добавить значение SALT с помощью параметра -s.

Разделы справки определить правильное значение SALT?

  1. Используйте интерактивное имя входа Kerberos, чтобы определить правильное значение соли для keytab. Интерактивное имя входа Kerberos будет использовать самое высокое шифрование по умолчанию. Трассировка должна быть включена для наблюдения за солью. Ниже приведен пример имени входа Kerberos:

$ KRB5_TRAACE=/dev/stdout kinit <username> -V
  1. Просмотрите выходные данные для соли "......." Линии.
  2. Используйте это значение соли при создании keytab.

ktutil
ktutil: addent -password -p <username>@<DOMAIN.COM> -k 1 -e aes256-cts-hmac-sha1-96 -s <SALTvalue>
Password for <username>@<DOMAIN.COM>: <password>
ktutil: wkt <username>.keytab
ktutil: q

Можно ли использовать существующий клиент Microsoft Entra для создания кластера HDInsight с esp?

Включите доменные службы Microsoft Entra перед созданием кластера HDInsight с помощью ESP. Hadoop с открытым кодом использует протокол Kerberos для аутентификации (вместо OAuth).

Чтобы присоединить виртуальные машины к домену, необходимо иметь контроллер домена. Доменные службы Microsoft Entra — это управляемый контроллер домена и считается расширением идентификатора Microsoft Entra. Доменные службы Microsoft Entra предоставляют все требования Kerberos для создания безопасного кластера Hadoop с помощью управляемого способа. HDInsight как управляемая служба интегрируется с доменными службами Microsoft Entra для обеспечения безопасности.

Можно ли использовать самозаверяющий сертификат в защищенной настройке LDAP доменных служб Microsoft Entra и подготовке кластера ESP?

Рекомендуется использовать сертификат, выданный центром сертификации. Но в ESP также поддерживается и использование самозаверяющего сертификата. Дополнительные сведения см. в разделе:

Можно ли установить Data Analytics Studio (DAS) в качестве кластера ESP?

Нет, установка DAS в кластерах ESP не поддерживается.

Как можно получить действие входа в систему, показанное в Ranger?

Для требований аудита Майкрософт рекомендует включить журналы Azure Monitor, как описано в разделе Использование журналов Azure Monitor для мониторинга кластеров HDInsight.

Можно ли отключить Clamscan в моем кластере?

Clamscan — антивирусное программное обеспечение, которое работает в кластере HDInsight и используется системой безопасности Azure (azsecd) для защиты кластеров от вирусных атак. Майкрософт настоятельно рекомендует пользователям не изменять конфигурацию Clamscan по умолчанию.

Этот процесс не мешает никаким циклам от других процессов и не вредит им. Он всегда будет уступать другому процессу. Вы будете наблюдать пики загрузки ЦП от Clamscan только в том случае, если система бездействует.

В сценариях, в которых необходимо управлять расписанием, можно выполнить следующие действия.

  1. Отключить автоматическое выполнение с помощью следующей команды:

    sudo usr/local/bin/azsecd config -s clamav -d Disabled sudo service azsecd restart

  2. Добавить задание Cron, которое выполняет следующую команду от имени пользователя root:

    /usr/local/bin/azsecd manual -s clamav

Дополнительные сведения о настройке и выполнении задания Cron см. в разделе Как настроить задание Cron.

Почему LLAP доступен в кластерах Spark ESP?

LLAP включен по соображениям безопасности (Apache Ranger), а не для производительности. Используйте виртуальные машины большего размера, чтобы приспособиться к использованию ресурсов LLAP (например, минимум D13V2).

Как добавить дополнительные группы Microsoft Entra после создания кластера ESP?

Для этого существует два способа. 1. Можно повторно создать кластер и добавить дополнительную группу во время создания кластера. Если вы используете область синхронизацию в доменных службах Microsoft Entra, убедитесь, что группа B включена в синхронизацию область. 2. Добавьте группу в качестве вложенной подгруппы предыдущей группы, которая использовалась для создания кластера ESP. Например, если вы создали кластер ESP с группой A, позднее можно добавить группу B в качестве вложенной подгруппы A, и примерно через один час она будет автоматически синхронизирована и доступна в кластере.

Хранилище

Можно ли добавить Azure Data Lake Storage 2-го поколения в существующий кластер HDInsight в качестве дополнительной учетной записи хранения?

Нет, в настоящее время невозможно добавить учетную запись хранения Azure Data Lake Storage 2-го поколения в кластер, имеющий хранилище BLOB-объектов в качестве основного хранилища. Дополнительные сведения см. в разделе Сравнение вариантов хранилищ.

Как найти связанный субъект-службу для учетной записи хранения Data Lake?

Параметры можно найти в разделе Доступ к Data Lake Storage 1-го поколения в свойствах вашего кластера на портале Azure. Дополнительные сведения см. в разделе Проверка настройки кластера.

Как можно рассчитать потребление учетных записей хранения и контейнеров больших двоичных объектов для кластеров HDInsight?

Выполните одно из следующих действий.

  • Использование PowerShell

  • Найдите размер папки /user/hive/.Trash/ в кластере HDInsight с помощью следующей команды:

    hdfs dfs -du -h /user/hive/.Trash/

Как настроить аудит для учетной записи хранения больших двоичных объектов?

Для аудита учетных записей хранения больших двоичных объектов настройте мониторинг с помощью процедуры, описанной в разделе Мониторинг учетной записи хранения на портале Azure. Журнал аудита HDFS содержит только данные аудита для локальной файловой системы HDFS (hdfs://mycluster). Он не включает операции, выполняемые в удаленном хранилище.

Как передавать файлы между контейнером больших двоичных объектов и головным узлом HDInsight?

Выполните скрипт, аналогичный следующему скрипту оболочки, на головном узле:

for i in cat filenames.txt
do
   hadoop fs -get $i <local destination>
done

Примечание.

Файл filenames.txt будет иметь абсолютный путь к файлам в контейнерах больших двоичных объектов.

Существуют ли подключаемые модули Ranger для хранилища?

В настоящее время для хранилища больших двоичных объектов и Azure Data Lake Storage 1-го или 2-го поколения не существует подключаемого модуля Ranger. Для кластеров ESP следует использовать Azure Data Lake Storage. Вы можете по крайней мере задать точные разрешения на уровне файловой системы вручную с помощью средств HDFS. Кроме того, при использовании Azure Data Lake служба хранилища кластеры ESP будут выполнять некоторые из управления доступом к файловой системе с помощью идентификатора Microsoft Entra на уровне кластера.

Вы можете назначать политики доступа к данным для групп безопасности пользователей с помощью Обозревателя службы хранилища Azure. Дополнительные сведения см. в разделе:

Можно ли увеличить хранилище HDFS в кластере, не увеличивая размер диска рабочих узлов?

№ Вы не можете увеличить размер диска любого рабочего узла. Поэтому единственным способом увеличения размера диска является удаление кластера и его повторное создание с использованием виртуальных машин большего размера. Не используйте HDFS для хранения ваших данных HDInsight, так как данные удаляются при удалении кластера. Вместо этого храните данные в Azure. Масштабирование кластера также может увеличить емкость кластера HDInsight.

Граничные узлы

Можно ли добавить граничные узлы после создания кластера?

Как подключиться к граничному узлу?

После создания граничного узла вы можете подключаться к нему по протоколу SSH через порт 22. Имя граничного узла можно найти на портале кластера. Эти имена обычно оканчиваются на -ed.

Почему сохраняемые скрипты не запускаются автоматически на вновь созданных граничных узлах?

Сохраняемые скрипты применяются при настройке новых рабочих узлов, добавленных в кластер при операциях масштабирования. Сохраняемые скрипты не применяются к граничным узлам.

REST API

Какие REST API следует вызывать, чтобы получить представление запроса Tez из кластера?

Для получения необходимой информации в формате JSON можно использовать следующие конечные точки REST. Для выполнения запросов используйте заголовки обычной проверки подлинности.

  • Tez Query View: https:// <cluster name>.azurehdinsight.net/ws/v1/timeline/HIVE_QUERY_ID/
  • Tez Dag View: https://<cluster name>.azurehdinsight.net/ws/v1/timeline/TEZ_DAG_ID/

Разделы справки получить сведения о конфигурации из кластера HDI с помощью пользователя Microsoft Entra?

Чтобы согласовать правильные маркеры проверки подлинности с пользователем Microsoft Entra, перейдите через шлюз с помощью следующего формата:

  • https://<cluster dnsname>.azurehdinsight.net/api/v1/clusters/testclusterdem/stack_versions/1/repository_versions/1

Как использовать Ambari REST для мониторинга производительности YARN?

При вызове команды Curl в той же или в одноранговой виртуальной сети используйте следующий формат команды.


curl -u <cluster login username> -sS -G
http://<headnodehost>:8080/api/v1/clusters/<ClusterName>/services/YARN/components/NODEMANAGER?fields=metrics/cpu

При вызове этой команды извне виртуальной сети или не из одноранговой виртуальной сети используйте следующий формат команды.

  • Для кластера, отличного от ESP:

    
    curl -u <cluster login username> -sS -G 
    https://<ClusterName>.azurehdinsight.net/api/v1/clusters/<ClusterName>/services/YARN/components/NODEMANAGER?fields=metrics/cpu
    
  • Для кластера ESP:

    
    curl -u <cluster login username>-sS -G 
    https://<ClusterName>.azurehdinsight.net/api/v1/clusters/<ClusterName>/services/YARN/components/NODEMANAGER?fields=metrics/cpu
    

Примечание.

Curl запрашивает пароль. Необходимо ввести правильный пароль для имени пользователя для входа в кластер.

Выставление счетов

Какова стоимость развертывания кластера HDInsight?

Дополнительные сведения о ценах и часто задаваемые вопросы, связанные с выставлением счетов, см. на странице Цены на Azure HDInsight.

Когда начинается и прекращается начисление оплаты за HDInsight?

Начисление оплаты начинается после создания кластера HDInsight и прекращается только после его удаления. Оплата начисляется пропорционально поминутно.

Как отменить мою подписку?

Сведения о том, как отменить подписку, см. в разделе Отмена подписки Azure.

Что происходит после отмены подписки с оплатой по мере использования?

Сведения о том, что происходит после отмены подписки, см. в разделе Что происходит после отмены подписки?

Куст

Почему в пользовательском интерфейсе Ambari версия Hive отображается как 1.2.1000 вместо 2.1, даже если запускается кластер HDInsight 3.6?

Хотя в пользовательском интерфейсе Ambari отображается только версия 1.2, HDInsight 3.6 содержит как Hive 1.2, так и Hive 2.1.

Прочие вопросы и ответы

Какими возможностями располагает HDInsight для потоковой обработки в реальном времени?

Сведения о возможностях интеграции потоковой обработки см. в разделе Выбор технологии потоковой обработки в Azure.

Существует ли способ динамического уничтожения головного узла кластера, когда кластер бездействует в течение определенного периода?

Это действие нельзя выполнить с кластерами HDInsight. В этих сценариях можно использовать Фабрику данных Azure.

Какие предложения для соответствия требованиям имеются в HDInsight?

Сведения о соответствии см. в Центре управления безопасностью Майкрософт.