Q: Каковы различные типы узлов в кластере HDInsight?

См. раздел Типы ресурсов в кластерах Azure HDInsight .

Q: Как изменить часовой пояс в Ambari?

Откройте веб-интерфейс Ambari по адресу https://CLUSTERNAME.azurehdinsight.net , где CLUSTERNAME — имя вашего кластера. В правом верхнем углу выберите admin | Settings. В окне "Параметры пользователя" выберите новый часовой пояс в раскрывающемся списке часового пояса и нажмите кнопку "Сохранить".

Question 1

Разделы справки подготовить кластер HDInsight?

Accepted Answer

Сведения о типах кластеров HDInsight и методах подготовки см. в разделе Настройка кластеров в HDInsight с помощью Apache Hadoop, Apache Spark, Apache Kafka и др.

Question 2

Как удалить существующий кластер HDInsight?

Accepted Answer

Дополнительные сведения об удалении кластера, когда он больше не используется, см. в статье "Удаление кластера HDInsight".

Старайтесь, чтобы между операциями создания и удаления проходило хотя бы 30–60 минут. В противном случае операция может завершиться неудачно со следующим сообщением об ошибке:

Conflict (HTTP Status Code: 409) error when attempting to delete a cluster immediately after creation of a cluster. If you encounter this error, wait until the newly created cluster is in operational state before attempting to delete it.

Question 3

Как выбрать правильное количество ядер или узлов для рабочей нагрузки?

Accepted Answer

Соответствующее количество ядер и другие параметры конфигурации зависят от многих факторов.

Дополнительные сведения см. в разделе Планирование ресурсов для кластеров HDInsight.

Question 4

Каковы различные типы узлов в кластере HDInsight?

Accepted Answer

См. раздел Типы ресурсов в кластерах Azure HDInsight.

Question 5

Каковы рекомендации по созданию больших кластеров HDInsight?

Accepted Answer

Рекомендуется настраивать кластеры HDInsight с пользовательской базой данных Ambari DB, чтобы улучшить масштабируемость кластера.
Используйте Azure Data Lake Storage 2-го поколения для создания кластеров HDInsight, чтобы воспользоваться преимуществами более высокой пропускной способности и других характеристик производительности Azure Data Lake Storage 2-го поколения.
Головные узлы должны быть достаточно большими, чтобы разместить на них несколько главных служб.
Для некоторых особых рабочих нагрузок, таких как Interactive Query, также требуются узлы Zookeeper большего размера. Рассмотрите как минимум восемь основных виртуальных машин.
В случае Hive и Spark используйте внешние хранилище метаданных Hive.

Question 6

Можно ли установить дополнительные компоненты в кластере?

Accepted Answer

Да. Чтобы установить дополнительные компоненты или настроить конфигурацию кластера, используйте:

Скрипты во время или после создания. Скрипты вызываются с помощью действия скрипта. Действие скрипта — это параметр конфигурации, который можно использовать на портале Azure, в командлетах HDInsight Windows PowerShell или в пакете SDK .NET HDInsight. Этот параметр конфигурации можно использовать на портале Azure, в командлетах HDInsight Windows PowerShell или в пакете SDK .NET HDInsight.
Платформу приложений HDInsight для установки приложений.

Список поддерживаемых компонентов см. в разделе Что представляют собой компоненты и версии Apache Hadoop, доступные в HDInsight?

Question 7

Можно ли обновить отдельные компоненты, которые предварительно установлены в кластере?

Accepted Answer

При обновлении встроенных компонентов или приложений, предварительно установленных в кластере, результирующая конфигурация не будет поддерживаться корпорацией Майкрософт. Эти системные конфигурации не были протестированы корпорацией Майкрософт. Попробуйте использовать другую версию кластера HDInsight, которая уже может иметь обновленную версию компонента.

Например, обновление Hive в качестве отдельного компонента не поддерживается. HDInsight — управляемая служба, и многие службы интегрированы с сервером Ambari и протестированы. Обновление Hive само по себе вызывает изменение индексированных двоичных файлов других компонентов и приводит к проблемам интеграции компонентов в вашем кластере.

Question 8

Можно ли запускать Spark и Kafka в одном кластере HDInsight?

Accepted Answer

Нет, невозможно запустить Apache Kafka и Apache Spark в одном том же кластере HDInsight. Создайте отдельные кластеры для Kafka и Spark, чтобы избежать проблем состязания за ресурсы.

Question 9

Как изменить часовой пояс в Ambari?

Accepted Answer

Откройте веб-интерфейс Ambari по адресу https://CLUSTERNAME.azurehdinsight.net, где CLUSTERNAME — имя вашего кластера.
В правом верхнем углу выберите admin | Settings.
В окне "Параметры пользователя" выберите новый часовой пояс в раскрывающемся списке часового пояса и нажмите кнопку "Сохранить".

Question 10

Как выполнить миграцию из существующего хранилища метаданных в Базу данных SQL Azure?

Accepted Answer

Подробные сведения о миграции из SQL Server в Базу данных SQL Azure см. в учебнике Автономная миграция из SQL Server в отдельную базу данных или базу данных в пуле в Базе данных SQL Azure с помощью DMS.

Question 11

Удаляется ли хранилище метаданных Hive при удалении кластера?

Accepted Answer

Это зависит от типа хранилища метаданных, для использования которого настроен ваш кластер.

Для хранилища метаданных по умолчанию: хранилище метаданных по умолчанию является частью жизненного цикла кластера. При удалении кластера соответствующее хранилище метаданных и метаданные также удаляются.

Для настраиваемого хранилища метаданных: жизненный цикл хранилища метаданных не привязан к жизненному циклу кластера. Таким образом, вы можете создавать и удалять кластеры без потери метаданных. Метаданные, такие как схемы Hive, сохраняются даже после удаления и повторного создания кластера HDInsight.

Дополнительную информацию см. в статье Использование внешних хранилищ метаданных в Azure HDInsight.

Question 12

При миграции хранилища метаданных Hive выполняется ли также перенос политик по умолчанию базы данных Ranger?

Accepted Answer

Нет, определение политики находится в базе данных Ranger, поэтому миграция базы данных Ranger переносит свою политику.

Question 13

Можно ли перенести хранилище метаданных Hive из кластера Корпоративного пакета безопасности (ESP) в кластер не ESP, и наоборот?

Accepted Answer

Да, можно переносить хранилище метаданных Hive из ESP в кластер не ESP.

Question 14

Как оценить размер базы данных хранилища метаданных Hive?

Accepted Answer

Хранилище метаданных Hive используется для хранения метаданных источников данных, используемых сервером Hive. Требования к размеру частично зависят от количества и сложности ваших источников данных Hive. Предварительная оценка этих элементов невозможна. Как описано в разделе Рекомендации по хранилищу метаданных Hive, можно начать с уровня S2. Этот уровень предоставляет 50 DTU и 250 ГБ хранилища, и если вы увидите узкие места, увеличьте масштаб базы данных.

Question 15

Поддерживается ли любая другая база данных, кроме базы данных SQL Azure, в качестве внешнего хранилища метаданных?

Accepted Answer

Нет, Майкрософт поддерживает только базу данных SQL Azure в качестве внешнего пользовательского хранилища метаданных.

Question 16

Можно ли совместно использовать хранилище метаданных в нескольких кластерах?

Accepted Answer

Да, вы можете совместно использовать пользовательское хранилище метаданных в нескольких кластерах, если они используют одну и ту же версию HDInsight.

Question 17

Каковы последствия блокировки портов 22 и 23 в моей сети?

Accepted Answer

Если вы блокируете порты 22 и 23, то у вас не будет доступа к кластеру по протоколу SSH. Эти порты не используются службой HDInsight.

Дополнительные сведения см. в следующих документах:

Question 18

Можно ли развернуть больше виртуальных машин в той же подсети, что и кластер HDInsight?

Accepted Answer

Да, можно развернуть больше виртуальных машин в той же подсети, что и кластер HDInsight. Возможны следующие конфигурации.

Граничные узлы. Вы можете добавить в кластер другой граничный узел, как описано в разделе Использование пустых граничных узлов в кластерах Apache Hadoop в HDInsight.
Изолированные узлы. Вы можете добавить изолированную виртуальную машину в ту же подсеть и получать доступ к кластеру из этой виртуальной машины с помощью частной конечной точки https://-int.azurehdinsight.net. См. статью Управление сетевым трафиком.

Question 19

Следует ли хранить данные на локальном диске граничного узла?

Accepted Answer

Нет, хранение данных на локальном диске не рекомендуется. В случае сбоя узла все хранящиеся локально данные будут потеряны. Мы рекомендуем хранить данные в Azure Data Lake Storage 2-го поколения или хранилище BLOB-объектов Azure, либо подключить общую папку службы "Файлы Azure" для хранения данных.

Question 20

Можно ли добавить существующий кластер HDInsight в другую виртуальную сеть?

Accepted Answer

Нет, нельзя. Виртуальная сеть должна быть указана во время подготовки. Если во время подготовки виртуальная сеть не была указана, то при развертывании создается внутренняя сеть, недоступная извне. Дополнительные сведения см. в разделе Добавление HDInsight в существующую виртуальную сеть.

Question 21

Каковы рекомендации по защите от вредоносных программ в кластерах Azure HDInsight?

Accepted Answer

Сведения о защите от вредоносных программ см. в разделе Microsoft Antimalware для облачных служб и виртуальных машин Azure.

Question 22

Разделы справки создать ключ для кластера HDInsight ESP?

Accepted Answer

Создайте keytab Kerberos для вашего имени пользователя домена. Позже этот keytab можно использовать для проверки подлинности в удаленных присоединенных к домену кластерах без ввода пароля. Имя домена указано прописными буквами.


ktutil
ktutil: addent -password -p @ -k 1 -e aes256-cts-hmac-sha1-96
Password for @: 
ktutil: wkt .keytab
ktutil: q

Question 23

Когда требуется соль для шифрования AES256 при создании ключа?

Accepted Answer

Если имя клиента и доменное имя отличаются (например, TenantName — bob@CONTOSO.ONMICROSOFT.COM и DomainName— ), bob@CONTOSOMicrosoft.ONMICROSOFT.COMнеобходимо добавить значение SALT с помощью параметра -s.

Question 24

Разделы справки определить правильное значение SALT?

Accepted Answer

Используйте интерактивный вход Kerberos, чтобы определить правильное значение соли для keytab. По умолчанию в интерактивном входе Kerberos используется самое высокое шифрование. Трассировка должна быть включена для наблюдения за солью. Ниже приведен пример входа Kerberos:


$ KRB5_TRAACE=/dev/stdout kinit  -V

Просмотрите выходные данные для соли "......." линия.
Используйте это значение соли при создании keytab.


ktutil
ktutil: addent -password -p @ -k 1 -e aes256-cts-hmac-sha1-96 -s 
Password for @: 
ktutil: wkt .keytab
ktutil: q

Question 25

Можно ли использовать существующий клиент Microsoft Entra для создания кластера HDInsight с esp?

Accepted Answer

Включите доменные службы Microsoft Entra перед созданием кластера HDInsight с помощью ESP. Hadoop с открытым кодом использует протокол Kerberos для аутентификации (вместо OAuth).

Чтобы присоединить виртуальные машины к домену, необходимо иметь контроллер домена. Доменные службы Microsoft Entra — это управляемый контроллер домена и считается расширением идентификатора Microsoft Entra. Доменные службы Microsoft Entra предоставляют все требования Kerberos для создания безопасного кластера Hadoop с помощью управляемого способа. HDInsight как управляемая служба интегрируется с доменными службами Microsoft Entra для обеспечения безопасности.

Question 26

Можно ли использовать самозаверяющий сертификат в защищенной настройке LDAP доменных служб Microsoft Entra и подготовке кластера ESP?

Accepted Answer

Рекомендуется использовать сертификат, выданный центром сертификации. Но в ESP также поддерживается и использование самозаверяющего сертификата. Дополнительные сведения см. в разделе:

Question 27

Можно ли установить Data Analytics Studio (DAS) в качестве кластера ESP?

Accepted Answer

Нет, установка DAS в кластерах ESP не поддерживается.

Question 28

Как вытягивать действия входа, показанные в Ranger?

Accepted Answer

Для требований аудита Майкрософт рекомендует включить журналы Azure Monitor, как описано в разделе Использование журналов Azure Monitor для мониторинга кластеров HDInsight.

Question 29

Можно ли отключить Clamscan в моем кластере?

Accepted Answer

Clamscan — антивирусное программное обеспечение, которое работает в кластере HDInsight и используется системой безопасности Azure (azsecd) для защиты кластеров от вирусных атак. Майкрософт настоятельно рекомендует пользователям не изменять конфигурацию Clamscan по умолчанию.

Этот процесс не мешает никаким циклам от других процессов и не вредит им. Он всегда будет уступать другому процессу. Вы будете наблюдать пики загрузки ЦП от Clamscan только в том случае, если система бездействует.

В сценариях, в которых необходимо управлять расписанием, можно выполнить следующие действия.

Отключить автоматическое выполнение с помощью следующей команды:

sudo usr/local/bin/azsecd config -s clamav -d Disabled sudo service azsecd restart
Добавить задание Cron, которое выполняет следующую команду от имени пользователя root:

/usr/local/bin/azsecd manual -s clamav

Дополнительные сведения о настройке и выполнении задания Cron см. в разделе Как настроить задание Cron.

Question 30

Почему LLAP доступен в кластерах Spark ESP?

Accepted Answer

LLAP включен по соображениям безопасности (Apache Ranger), а не для производительности. Используйте виртуальные машины большего размера, чтобы приспособиться к использованию ресурсов LLAP (например, минимум D13V2).

Question 31

Как добавить дополнительные группы Microsoft Entra после создания кластера ESP?

Accepted Answer

Для этого существует два способа. 1. Можно повторно создать кластер и добавить дополнительную группу во время создания кластера. Если вы используете синхронизацию с областью действия в доменных службах Microsoft Entra, убедитесь, что группа B включена в синхронизацию с областью действия. 2. Добавьте группу в качестве вложенной подгруппы предыдущей группы, которая использовалась для создания кластера ESP. Например, если вы создали кластер ESP с группой A, позднее можно добавить группу B в качестве вложенной подгруппы A, и примерно через один час она будет автоматически синхронизирована и доступна в кластере.

Question 32

Можно ли добавить Azure Data Lake Storage 2-го поколения в существующий кластер HDInsight в качестве дополнительной учетной записи хранения?

Accepted Answer

Нет, в настоящее время невозможно добавить учетную запись хранения Azure Data Lake Storage 2-го поколения в кластер, имеющий хранилище BLOB-объектов в качестве основного хранилища. Дополнительные сведения см. в разделе Сравнение вариантов хранилищ.

Question 33

Как найти связанный субъект-службу для учетной записи хранения Data Lake?

Accepted Answer

Параметры можно найти в разделе Доступ к Data Lake Storage 1-го поколения в свойствах вашего кластера на портале Azure. Дополнительные сведения см. в разделе Проверка настройки кластера.

Question 34

Как можно рассчитать потребление учетных записей хранения и контейнеров больших двоичных объектов для кластеров HDInsight?

Accepted Answer

Выполните одно из следующих действий:

Использование PowerShell
Найдите размер папки /user/hive/.Trash/ в кластере HDInsight с помощью следующей команды:

hdfs dfs -du -h /user/hive/.Trash/

Question 35

Как настроить аудит для учетной записи хранения больших двоичных объектов?

Accepted Answer

Для аудита учетных записей хранения больших двоичных объектов настройте мониторинг с помощью процедуры, описанной в разделе Мониторинг учетной записи хранения на портале Azure. Журнал аудита HDFS содержит только данные аудита для локальной файловой системы HDFS (hdfs://mycluster). Он не включает операции, выполняемые в удаленном хранилище.

Question 36

Как передать файлы между контейнером BLOB-объектов и головным узлом HDInsight?

Accepted Answer

Выполните скрипт, аналогичный следующему скрипту оболочки, на головном узле:

for i in cat filenames.txt
do
   hadoop fs -get $i 
done

Примечание.

Файл filenames.txt будет иметь абсолютный путь к файлам в контейнерах больших двоичных объектов.

Question 37

Существуют ли подключаемые модули Ranger для хранилища?

Accepted Answer

В настоящее время для хранилища больших двоичных объектов и Azure Data Lake Storage 1-го или 2-го поколения не существует подключаемого модуля Ranger. Для кластеров ESP следует использовать Azure Data Lake Storage. Вы можете по крайней мере задать точные разрешения на уровне файловой системы вручную с помощью средств HDFS. Кроме того, при использовании Azure Data Lake Storage кластеры ESP будут выполнять некоторые из элементов управления доступом к файловой системе с помощью идентификатора Microsoft Entra на уровне кластера.

Вы можете назначать политики доступа к данным для групп безопасности пользователей с помощью Обозревателя службы хранилища Azure. Дополнительные сведения см. в разделе:

Разделы справки задать разрешения для пользователей Microsoft Entra для запроса данных в Data Lake Storage 2-го поколения с помощью Hive или других служб?
Установка разрешений на уровне файлов и каталогов в Azure Data Lake Storage 2-го поколения с помощью Обозревателя службы хранилища Azure

Question 38

Можно ли увеличить хранилище HDFS в кластере, не увеличивая размер диска рабочих узлов?

Accepted Answer

№ Вы не можете увеличить размер диска любого рабочего узла. Поэтому единственным способом увеличения размера диска является удаление кластера и его повторное создание с использованием виртуальных машин большего размера. Не используйте HDFS для хранения ваших данных HDInsight, так как данные удаляются при удалении кластера. Вместо этого храните данные в Azure. Масштабирование кластера также может увеличить емкость кластера HDInsight.

Question 39

Можно ли добавить граничные узлы после создания кластера?

Accepted Answer

См. раздел Использование пустых граничных узлов в кластерах Apache Hadoop в HDInsight.

Question 40

Как подключиться к граничному узлу?

Accepted Answer

После создания граничного узла вы можете подключаться к нему по протоколу SSH через порт 22. Имя граничного узла можно найти на портале кластера. Эти имена обычно оканчиваются на -ed.

Question 41

Почему сохраняемые скрипты не запускаются автоматически на вновь созданных граничных узлах?

Accepted Answer

Сохраняемые скрипты применяются при настройке новых рабочих узлов, добавленных в кластер при операциях масштабирования. Сохраняемые скрипты не применяются к граничным узлам.

Question 42

Какие REST API следует вызывать, чтобы получить представление запроса Tez из кластера?

Accepted Answer

Для получения необходимой информации в формате JSON можно использовать следующие конечные точки REST. Для выполнения запросов используйте заголовки обычной проверки подлинности.

Tez Query View: https:// .azurehdinsight.net/ws/v1/timeline/HIVE_QUERY_ID/
Tez Dag View: https://.azurehdinsight.net/ws/v1/timeline/TEZ_DAG_ID/

Question 43

Разделы справки получить сведения о конфигурации из кластера HDI с помощью пользователя Microsoft Entra?

Accepted Answer

Чтобы согласовать правильные маркеры проверки подлинности с пользователем Microsoft Entra, перейдите через шлюз с помощью следующего формата:

https://.azurehdinsight.net/api/v1/clusters/testclusterdem/stack_versions/1/repository_versions/1

Question 44

Как использовать Ambari REST для мониторинга производительности YARN?

Accepted Answer

При вызове команды Curl в той же или в одноранговой виртуальной сети используйте следующий формат команды.


curl -u  -sS -G
http://:8080/api/v1/clusters//services/YARN/components/NODEMANAGER?fields=metrics/cpu

При вызове этой команды извне виртуальной сети или не из одноранговой виртуальной сети используйте следующий формат команды.

Для кластера, отличного от ESP:


curl -u  -sS -G 
https://.azurehdinsight.net/api/v1/clusters//services/YARN/components/NODEMANAGER?fields=metrics/cpu

Для кластера ESP:


curl -u -sS -G 
https://.azurehdinsight.net/api/v1/clusters//services/YARN/components/NODEMANAGER?fields=metrics/cpu

Примечание.

Curl запрашивает пароль. Необходимо ввести допустимый пароль для имени пользователя входа в кластер.

Question 45

Сколько стоит развернуть кластер HDInsight?

Accepted Answer

Дополнительные сведения о ценах и часто задаваемые вопросы, связанные с выставлением счетов, см. на странице Цены на Azure HDInsight.

Question 46

Когда начинается и прекращается начисление оплаты за HDInsight?

Accepted Answer

Начисление оплаты начинается после создания кластера HDInsight и прекращается только после его удаления. Оплата начисляется пропорционально поминутно.

Question 47

Как отменить мою подписку?

Accepted Answer

Сведения о том, как отменить подписку, см. в разделе Отмена подписки Azure.

Question 48

Что происходит после отмены подписки с оплатой по мере использования?

Accepted Answer

Сведения о том, что происходит после отмены подписки, см. в разделе Что происходит после отмены подписки?

Question 49

Почему версия Hive отображается как 1.2.1000 вместо 2.1 в пользовательском интерфейсе Ambari, хотя я выполняю кластер HDInsight 3.6?

Accepted Answer

Хотя в пользовательском интерфейсе Ambari отображается только версия 1.2, HDInsight 3.6 содержит как Hive 1.2, так и Hive 2.1.

Question 50

Какими возможностями располагает HDInsight для потоковой обработки в реальном времени?

Accepted Answer

Сведения о возможностях интеграции потоковой обработки см. в разделе Выбор технологии потоковой обработки в Azure.

Question 51

Существует ли способ динамического уничтожения головного узла кластера, когда кластер бездействует в течение определенного периода?

Accepted Answer

Это действие нельзя выполнить с кластерами HDInsight. В этих сценариях можно использовать Фабрику данных Azure.

Question 52

Какие предложения для соответствия требованиям имеются в HDInsight?

Accepted Answer

Сведения о соответствии см. в Центре управления безопасностью Майкрософт.

Поделиться через

Azure HDInsight. Часто задаваемые вопросы

Создание или удаление кластеров HDInsight