Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
В этом разделе содержатся сведения, которые помогут вам или корпорации Майкрософт устранить неполадки при развертывании узлов Azure с помощью пакета HPC.
Общие требования и рекомендации по развертыванию узлов Azure с помощью пакета HPC см. в следующих статьях:
Требования к добавлению узлов Azure с помощью пакета Microsoft HPC.
Рекомендации по развертыванию крупных узлов Azure с пакетом Microsoft HPC
Общие рекомендации по устранению неполадок при развертывании
Если возникла проблема с подключением к Интернету или информацией о подписке Azure, предоставленной в шаблоне узла, развертывание узла Azure может завершиться ошибкой. Параметры подключения для Azure можно проверить в шаблоне узла. Откройте шаблон в редакторе шаблонов узлов. Затем на вкладке "Сведения о подключении " нажмите кнопку "Проверить сведения о подключении".
Если возникла проблема с конфигурацией сертификата управления Azure, см. статью "Устранение неполадок с сертификатом".
Если вы используете по крайней мере пакет HPC 2008 R2 с пакетом обновления 2 (SP2), можно запустить диагностический тест портов брандмауэра Azure и диагностический тест подключения служб Azure , чтобы убедиться, что сетевой брандмауэр и другие параметры настроены правильно для связи между пакетом HPC и Azure или устранять проблемы с подключением.
Если системное время не задано точно на головном компьютере узла (или на головном узле), некоторые операции Azure, такие как создание шаблона узла или развертывание новых узлов, могут завершиться ошибкой, аналогичной следующей:
Server failed to authenticate the request. Make sure the value of Authorization header is formed correctly including the signature.Если при развертывании возникают частичные сбои, в которых узлы Azure не приходят в сеть, попробуйте выполнить следующую команду telnet, чтобы узнать, доступен ли облачная служба, указанная в шаблоне узла, находится в конечной точке Azure:
telnet <ServiceName>.cloudapp.net 7999Замечание
Чтобы выполнить эту команду, компонент клиента Telnet должен быть установлен в операционной системе. Сведения об установке клиента Telnet с помощью диспетчера серверов см. в руководстве по операциям Telnet.
Проблема в Azure может повлиять на подмножество узлов Azure, которые находятся в наборе. Например, если вы запускаете большое количество узлов, развертывание может завершиться сбоем на одном или нескольких узлах. В этом случае вы увидите соответствующие сведения о состоянии для неудачных узлов в службе "Управление ресурсами " (называется "Управление узлами " в некоторых версиях пакета HPC).
Сведения о состоянии развертывания отображаются в сведениях учетной записи службы на портале. HpC Cluster Manager регулярно запрашивает этот портал для получения обновленных сведений о состоянии. Однако сведения на портале могут отличаться от того, что в журналах подготовки или журнале операций в диспетчере кластеров HPC.
Если в Azure возникает ошибка развертывания, в портале может появиться сообщение об ошибке и сведения об устранении неполадок на портале или в журнале подготовки в диспетчере кластеров HPC. Если устранить проблему невозможно, можно просмотреть журналы трассировки, созданные на экземплярах ролей в развертывании. Дополнительные сведения см. в разделе "Файлы журнала трассировки" на узлах Azure в этом разделе.
Вы также можете посетить службу поддержки Azure. Чтобы помочь в устранении проблемы, будьте готовы предоставить идентификатор подписки, настроенный в шаблоне узла, и идентификатор развертывания, который отображается в журнале подготовки в диспетчере кластеров HPC и на портале.
После подготовки набора узлов в Azure можно запустить дополнительный набор узлов с помощью того же шаблона узла. Однако в некоторых случаях дополнительные узлы не смогут работать в Диспетчере кластеров HPC, но они, как представляется, успешно развернуты в Azure. В этом случае диспетчер кластеров HPC может быть не удается остановить или удалить неудачные узлы. При необходимости сначала остановите и перезапустите службу управления HPC. Затем, чтобы удалить узлы, используйте портал управления Azure.
Начиная с пакета HPC 2012 с пакетом обновления 1 (SP1) для устранения неполадок с развертываниями узлов Azure, вы можете выбрать сбор данных на головном узле и отправить в Корпорацию Майкрософт данные о доступности, подключении и производительности узлов Azure. Это можно сделать, если необходимо открыть инцидент поддержки, связанный с развертыванием узла Azure. Чтобы включить сбор данных, в диспетчере кластеров HPC в меню "Параметры " щелкните "Сбор данных поддержки Azure". Кроме того, настройте свойство кластера AzureMetricsCollectionEnabled с помощью командлета Set-HpcClusterProperty HPC PowerShell. Дополнительные сведения о сборе данных см. в заявлении о конфиденциальности пакета MICROSOFT HPC.
Файлы журнала трассировки на узлах Azure
Начиная с пакета HPC 2008 R2 с пакетом обновления 4 (SP4), файлы журналов трассировки создаются автоматически на рабочих узлах Azure и на узлах прокси-сервера Azure HPC, которые автоматически подготавливаются для каждого развертывания. Файлы журналов могут помочь вам или службе поддержки Майкрософт устранить неполадки во время или после подготовки узлов, например условия, которые могут привести к тому, что узел Azure может показать состояние работоспособности недоступности или ошибки, даже если портал может указать состояние готовности.
Файлы журнала трассировки содержат следующие типы сведений о каждом узле:
Сведения о начальной загрузке операционной системы.
Сведения о службах пакетов HPC, которые должны выполняться на узле.
Сведения о файле Hosts.
Данные счетчика производительности операционной системы.
Файлы журнала записываются в локальное хранилище на каждом узле, как показано в следующей таблице. Форматы, характеристики и именование файлов журнала трассировки зависят от версии пакета HPC.
Это важно
Файлы журналов хранятся только в локальном хранилище экземпляров ролей Azure, а узлы остаются подготовленными в Azure. Если файлы или данные не копируются в другое расположение, вы не сможете просмотреть сведения журнала трассировки после остановки или удаления узлов Azure. Дополнительные сведения см. в сценариях хранения данных журнала трассировки в этом разделе.
| Версия пакета HPC | Файлы журналов | Примечания. |
|---|---|---|
| Пакет HPC 2012 или более поздней версии |
-
Рабочие узлы C:\logs\hpcworker_nnnnnn.bin - Прокси-узлы C:\logs\hpcproxy_nnnnnnnn.bin |
— файлы журнала находятся в двоичном формате. Уровень ведения журнала по умолчанию — Подробный. — Каждый файл журнала составляет не более 4 МБ по умолчанию, и на каждом узле может храниться не более 5000 МБ файлов журнала. — Чтобы упростить анализ, файлы журналов можно преобразовать в разделенные вкладками текстовые файлы, выполнив подкоманда синтаксического журнала средства командной строки hpctrace , установленного с пакетом HPC. Дополнительные сведения об использовании этой команды см. в разделе hpctrace. |
| Пакет HPC 2008 R2 с пакетом обновления 4 (SP4) |
-
Рабочие узлы C:\logs\hpcworker.log - Прокси-узлы C:\logs\hpcproxy.log |
— файлы журнала находятся в текстовом формате. Уровень ведения журнала по умолчанию — Предупреждение или выше. — На каждом узле записываются до пяти нумерованных файлов журнала переполнения с расширением 00<Integer> . — файлы журнала на каждом узле ограничены 60 МБ, а затем циклически автоматически. |
Замечание
Параметры настройки облачной службы на классическом портале можно использовать для изменения уровня трассировки для определенных процессов на узлах Azure (например , Microsoft.Hpc.Azure.AzureNodeManagerTracing).
Сценарии хранения данных журнала трассировки
Файлы журнала трассировки, созданные в экземплярах ролей Azure, остаются в локальном хранилище экземпляров роли до тех пор, пока выполняются экземпляры роли. Однако если вы хотите получить доступ к данным после остановки развертывания Azure или узлов, необходимо скачать или сохранить файлы журнала трассировки или данные в постоянном хранилище, например в хранилище Azure, а экземпляры ролей выполняются. Ниже приведены сценарии хранения файлов журнала трассировки или данных.
Сценарий 1. Включение автоматической передачи файлов журнала трассировки в хранилище BLOB-объектов Azure
Начиная с пакета HPC 2012 с пакетом обновления 1 (SP1) администратор кластера HPC может дополнительно включить автоматическую передачу файлов журнала трассировки из вычислительных узлов Azure или прокси-узлов в развертывание в контейнер в хранилище BLOB-объектов (hpclogs) в учетной записи хранения Azure для развертывания.
Чтобы включить автоматическую передачу файлов журнала трассировки в хранилище BLOB-объектов в учетной записи хранения Azure, в диспетчере кластеров HPC в меню "Параметры " щелкните "Конфигурация развертывания Azure". Вы также можете задать свойство кластера HPC AzureLogstoBlob с помощью командлета Set-HpcClusterProperty HPC PowerShell. Вы можете передать журналы для прокси-узлов, рабочих узлов или обоих. По умолчанию передача хранилища BLOB-объектов файлов журнала отключена. Изменение свойства AzureLogstoBlob влияет только на передачу файлов журналов для будущих развертываний узлов Azure. Текущие развертывания не затрагиваются. Дополнительные сведения см. в разделе Set-HpcClusterProperty.
Это важно
Сохранение файлов журнала развертывания Azure в хранилище BLOB-объектов использует место хранения и создает транзакции хранения в учетной записи хранения, связанной с каждым развертыванием. Если этот параметр включен, сохранение файлов журналов с рабочих узлов может повлиять на производительность всех развертываний Azure, использующих одну и ту же учетную запись хранения, особенно при наличии крупных развертываний или нескольких параллельных развертываний. Плата за хранилище и транзакции хранилища будут выставляться в вашу учетную запись. После отключения передачи файлов журналов файлы журналов не будут автоматически удалены из хранилища Azure. Вы можете сохранить файлы журнала для последующей ссылки, скачав их. Файлы журналов можно очистить, удалив контейнер hpclogs из учетной записи хранения.
Вы можете запустить команду hpcazurelog на головных узлах, чтобы скачать данные из хранилища BLOB-объектов в учетной записи хранения в локальную папку и удалить файлы из хранилища BLOB-объектов. Дополнительные сведения см. в hpcazurelog.
Сценарий 2. Включение автоматической передачи данных журнала трассировки в хранилище таблиц Azure
Начиная с пакета HPC 2012 администратор кластера HPC может дополнительно включить передачу данных журнала трассировки с узлов Azure в таблицу диагностики Azure (WADSLogsTable), созданную для этой цели в учетной записи хранения Azure для развертывания.
Чтобы включить передачу данных журнала трассировки в таблицу WADSLogsTable в учетной записи хранения Azure, задайте для свойства кластера HPC AzureLoggingEnabledзначение true с помощью командлета Set-HpcClusterProperty HPC PowerShell. По умолчанию фильтруются только критические, ошибки и предупреждения в файлах журнала для включения в таблицу WADSLogstable. Изменение свойства AzureLoggingEnabled влияет только на ведение журнала для будущих развертываний узлов Azure. Текущие развертывания не затрагиваются. Дополнительные сведения см. в разделе Set-HpcClusterProperty.
Это важно
- Ведение журнала действий развертывания Azure использует табличное пространство и создает транзакции хранения в учетной записи хранения, связанной с каждым развертыванием. Пространство хранилища и транзакции хранилища будут взиматься в соответствии с условиями подписки Azure.
- Ведение журнала в хранилище Azure обычно должно быть включено только в том случае, если возникают проблемы с развертыванием и помочь в устранении неполадок с развертыванием. После отключения ведения журнала в хранилище Azure данные журнала не будут автоматически удалены из хранилища Azure. Вы можете сохранить журналы для будущих ссылок, скачав их. Записи журнала можно очистить, удалив WADLogsTable из учетной записи хранения.
Начиная с пакета HPC 2012 с пакетом обновления 1 (SP1) можно запустить команду hpcazurelog на головном узле, чтобы скачать данные из WADLogsTable в учетную запись хранения в локальную папку и указать уровень трассировки данных, выбранных для хранения в таблице. Дополнительные сведения см. в hpcazurelog.
Сценарий 3. Извлечение и хранение файлов журналов вручную из узлов Azure
Чтобы упростить дальнейший анализ, можно вручную скачать файлы журналов с узлов Azure на локальный компьютер или отправить их в учетную запись хранения Azure.
Скачивание файлов журнала
Чтобы скачать файлы журнала, можно использовать одну из следующих процедур:
Запустите команду hpcfile get , чтобы скачать файлы журналов с каждого узла по отдельности.
Запустите скрипт, использующий hpcfile, чтобы скачать файлы из групп рабочих узлов.
Используйте портал управления Azure для удаленного подключения к каждому узлу по отдельности. Затем можно скопировать файл журнала или файлы на локальный компьютер.
Выполните команду hpcazurelog на головном узле, чтобы скачать файлы с рабочих узлов Azure или прокси-узлов. Эта команда появилась в пакете HPC 2012 с пакетом обновления 1 (SP1) и не поддерживается в предыдущих версиях. Дополнительные сведения см. в hpcazurelog.
Замечание
- Чтобы сделать удаленное подключение к узлу Azure, убедитесь, что в шаблоне узла Azure настроены учетные данные удаленного рабочего стола.
- Чтобы скачать файлы журналов с узлов прокси-сервера HPC, необходимо сделать удаленное подключение к каждому узлу, а затем копировать файлы журналов по отдельности на локальный компьютер.
Ниже приведены примеры команд и скриптов, которые используются hpcfile get для скачивания файлов журналов с рабочих узлов Azure. Дополнительные сведения о синтаксисе команд см. в разделе hpcfile.
Пример 1. Чтобы скачать файлы журнала трассировки, включая возможные файлы переполнения, с узла Azure AZURECN-001 в кластере с пакетом HPC 2008 R2 с головной узлом с пакетом обновления 4 (SP4 ) в текущую папку на локальном компьютере, переназовав файлы, чтобы избежать перезаписи файлов на локальном компьютере:
hpcfile get /scheduler:myHeadNode /targetnode:AZURECN-001 /file:"C:\logs\hpcworker.log" /destfile:"worker001.log"
hpcfile get /scheduler:myHeadNode /targetnode:AZURECN-001 /file:"C:\logs\hpcworker.log.001" /destfile:"worker002.log"
hpcfile get /scheduler:myHeadNode /targetnode:AZURECN-001 /file:"C:\logs\hpcworker.log.002" /destfile:"worker003.log"
hpcfile get /scheduler:myHeadNode /targetnode:AZURECN-001 /file:"C:\logs\hpcworker.log.003" /destfile:"worker004.log"
hpcfile get /scheduler:myHeadNode /targetnode:AZURECN-001 /file:"C:\logs\hpcworker.log.004" /destfile:"worker005.log"
hpcfile get /scheduler:myHeadNode /targetnode:AZURECN-001 /file:"C:\logs\hpcworker.log.005" /destfile:"worker006.log"
Пример 2. Чтобы скачать файлы журналов hpcworker_000000.bin с узлов Azure в группе node WorkerNodes с именами, начинаными azureCN в кластере с головным узлом пакета HPC 2012 с именем myHeadNode , в папку C:\myFiles\myLogs на локальном компьютере:
@echo off
set "extension=.bin"
set "fullfilepath=C:\myFiles\myLogs"
mkdir C:\myFiles\myLogs
FOR /F "tokens=1 delims="%%G IN ('node list /group:WorkerNodes ^| FIND "AZURECN-"') DO hpcfile get /scheduler:MyHeadNode /targetnode:%%G -file:"C:\logs\hpcworker_000000.bin" /destfile:"%fullfilepath%%%G%%%extension%"
Отправка файлов журналов в учетную запись хранения Azure
Для отправки файлов журнала трассировки из рабочих узлов Azure в учетную запись хранения Azure можно использовать одну из следующих процедур:
Скачайте один или несколько файлов журналов на локальный компьютер, как описано в предыдущем разделе, а затем отправьте их в учетную запись хранения Azure, выполнив команду отправки hpcpack .
Запустите сценарий на одном или нескольких узлах Azure, которые используют отправку hpcpack для передачи файлов журналов непосредственно в учетную запись хранения.
Замечание
- Чтобы запустить скрипт в группе узлов Azure, можно сначала отправить скрипт с локального компьютера на узлы.
- Как описано в сценарии 1. Включение автоматической передачи файлов журнала трассировки в хранилище BLOB-объектов Azure, начиная с пакета HPC 2012 с пакетом обновления 1 (SP1), можно включить автоматическую передачу файлов журнала трассировки в хранилище BLOB-объектов в учетной записи хранения Azure. Однако если вы не используете версию пакета HPC, поддерживающую эту возможность, или вы не включили автоматическую передачу файлов журналов в хранилище BLOB-объектов, их можно отправить вручную в это расположение.
Ниже приведены примеры сценариев, которые используют отправку hpcpack для отправки файлов журналов из рабочих узлов Azure в учетную запись хранения Azure. Дополнительные сведения о синтаксисе команды см. в разделе hpcpack.
Замечание
Так как файлы журналов на рабочих узлах называются одинаково, при передаче файлов в учетную запись хранения Azure следует избегать перезаписи файлов. Например, можно переименовать файлы журнала с именами, включающими имя узла узла, как показано в следующих примерах.
Пример 3. Отправка и переименование файлов hpcworker_000000.bin с рабочих узлов Azure в контейнер MyLogs в учетной записи хранения Azure с именем MyStorageAccount с первичным ключом с именем MyPrimaryKey
@echo off
REM Get the host name of the Azure node
FOR /F "usebackq" %%i IN ('e:\approot\mpiexec.exe -c 1 hostname') DO SET filename=%%i
set "extension=.bin"
set "fullpath=C:\logs"
REM Consolidate the log file name (e.g., AzureCN-001.bin)
set "fullfilePath=%fullpath%%filename%%extension%"
REM echo:%fullfilePath%
REM Create a temporary file with desired name
copy C:\logs\hpcworker_000000.bin %fullfilePath%
e:\approot\hpcpack upload %fullfilePath% /account:MyStorageAccount /container:MyLogs /key:MyPrimaryKey
del %fullfilePath%
Пример 4. Чтобы отправить скрипт Uploader.bat (аналогично скрипту в примере 3) из головного узла в контейнер с именем MyContainer в учетной записи хранения Azure с именем MyStorageAccount, скачайте скрипт в узлы Azure в группе узлов с именем WorkerNodes, а затем запустите Uploader.bat на узлах в WorkerNodes:
hpcpack upload uploader.bat /account:MyStorageAccount /container:MyLogs /key:MyPrimaryKey
clusrun /nodegroup:WorkerNodes hpcpack download uploader.bat /account:MyStorageAccount /container:MyLogs /key:MyPrimaryKey /path:c:\logs
clusrun /nodegroup:WorkerNodes c:\logs\uploader.bat
clusrun /nodegroup:WorkerNodes del c:\logs\uploader.bat
Просмотр данных журнала в учетной записи хранения Azure
Чтобы просмотреть журналы, которые находятся в таблице Azure или хранилище BLOB-объектов, можно просматривать хранилище с помощью средства, например обозревателя службы хранилища Azure.
См. также
Ускорение рабочих экземпляров Azure с помощью пакета Microsoft HPC
hpcazurelog