Поделиться через


Отладка сбоев конвейера с помощью Студия машинного обучения Azure

После отправки задания конвейера можно выбрать ссылку на задание в рабочей области в Студия машинного обучения Azure. Ссылка открывает страницу сведений о задании конвейера, где можно проверить результаты и отладить неудачные задания конвейера. В этой статье объясняется, как использовать страницу сведений о задании конвейера и сравнение конвейера (предварительная версия) для отладки сбоев конвейера машинного обучения.

Внимание

Элементы, обозначенные в этой статье как (предварительная версия), сейчас предлагаются в общедоступной предварительной версии. Предварительная версия предоставляется без соглашения об уровне обслуживания и не рекомендована для производственных рабочих нагрузок. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены. Дополнительные сведения см. в статье Дополнительные условия использования Предварительных версий Microsoft Azure.

Использование структуры для быстрого поиска узла

На странице сведений о задании конвейера область "Структура " слева отображает общую структуру задания конвейера. Наведите указатель мыши на любую строку и щелкните значок "Найти на холсте ", чтобы выделить этот узел на холсте и открыть панель сведений для узла справа.

Снимок экрана: структура и поиск на холсте.

На панели "Структура" можно выбрать значок фильтра, чтобы быстро отфильтровать представление только до завершенных узлов, только компонентов или только данных. Вы также можете отфильтровать список, введя имена узлов или имена компонентов в поле поиска или выбрав "Добавить фильтр " и выбрав их из списка фильтров.

Снимок экрана: быстрый фильтр и поиск в области

В левой области показаны соответствующие узлы с дополнительными сведениями, включая состояние, длительность и дату выполнения. Вы можете отсортировать отфильтрованные узлы.

Снимок экрана: сортировка результатов поиска в области

Проверка журналов компонентов и выходных данных

Если конвейер завершается сбоем или зависает на узле, сначала просмотрите журналы.

Анимированный снимок экрана, показывающий, как проверить журналы узлов.

  1. Выберите узел, чтобы открыть область сведений справа.

  2. Перейдите на вкладку "Выходные данные и журналы" , чтобы просмотреть все выходные данные и журналы из этого узла.

    Снимок экрана: user_logs в области сведений о узле.

    • В папке user_logs содержатся сведения о созданных пользовательских журналах. По умолчанию эта папка открыта, и выбран журнал std_log.txt. Журналы кода, такие как операторы печати, отображаются в std_log.txt.

    • В папке system_logs находятся журналы, созданные Машинным обучением Azure. Дополнительные сведения см. в разделе "Просмотр и скачивание журналов диагностики".

    Примечание.

    Если эти папки не отображаются, обновление времени выполнения вычислений еще не будет выпущено в вычислительный кластер. Сначала можно просмотреть 70_driver_log.txt в папке azureml-logs .

Сравнение заданий конвейера (предварительная версия)

Вы можете сравнить различные задания конвейера с ошибкой отладки или другими непредвиденными проблемами (предварительная версия). Сравнение конвейеров определяет различия, такие как топология, свойства компонента и свойства задания между заданиями конвейера.

Вы можете сравнить успешные и неудачные задания конвейера, чтобы найти различия, которые могут привести к сбою одного задания конвейера. Вы можете выполнить отладку неудачного задания конвейера, сравнивая его с завершенным заданием, или отлаживать неработоспособный узел в конвейере, сравнивая его с аналогичным завершенным узлом.

Чтобы включить эту функцию в Студия машинного обучения Azure, щелкните значок мегафона в правом верхнем углу, чтобы управлять функциями предварительной версии. На панели компонентов управляемой предварительной версии убедитесь, что для задания конвейера сравнения с ошибками отладки или непредвиденными проблемами задано значение "Включено".

Снимок экрана: переключатель функции предварительной версии.

Сравнение неудачного задания конвейера с успешным заданием

Во время разработки итеративной модели можно клонировать и изменить успешный базовый конвейер, изменив параметр, набор данных, вычислительный ресурс или другой параметр. Если новый конвейер завершается сбоем, можно использовать сравнение конвейеров, чтобы определить сбой, определив изменения родительского конвейера.

Например, если новый конвейер завершился сбоем из-за нехватки памяти, можно использовать сравнение конвейеров, чтобы узнать, какие изменения из родительского конвейера могут вызвать проблемы с памятью.

Сравнение конвейера с родительским элементом

  1. На странице задания конвейера сбоем выберите "Показать происхождение".

  2. Выберите ссылку в всплывающем окне клонированного окна, чтобы открыть страницу задания родительского конвейера на новой вкладке браузера.

    Снимок экрана: клонированные из ссылки, с предыдущим шагом выделена кнопка происхождения.

  3. На обеих страницах нажмите кнопку "Добавить" для сравнения в верхней строке меню, чтобы добавить оба задания в список сравнения .

    Снимок экрана: список сравнения с добавленным родительским и дочерним конвейером.

После добавления обоих конвейеров в список сравнения можно выбрать вариант "Сравнить сведения " или "Сравнить график".

Сравнение графа

Сравните диаграмму с изменениями топологии графов между конвейерами A и B. На холсте узлы, относящиеся к конвейеру A, помечены как A и выделены красным цветом, а узлы, относящиеся к конвейеру B, помечены как B и выделены зеленым цветом. Описание изменений отображается в верхней части узлов, имеющих различия.

Вы можете выбрать любой узел, чтобы открыть область сведений о компонентах, где можно просмотреть свойства набора данных или свойства компонента, такие как параметры, runSettings и outputSettings. Вы можете выбрать отображение только различий и показать встроенные различия.

Снимок экрана: изменен параметр и вкладка сведений о компоненте.

В этом представлении можно выбрать "Показать сведения о сравнении" в правом верхнем углу, чтобы открыть обзор сравнения конвейера, в котором отображаются те же сведения, что и страница сравнения сведений.

Сравнение сведений

Чтобы просмотреть общие метаданные конвейера и задания, свойства и различия, выберите "Сравнить сведения " в списке сравнения. На странице сравнения сведений отображаются свойства конвейера и свойства задания для обоих заданий конвейера.

  • Свойства конвейера включают параметры конвейера, параметры вычислений и выходные параметры.
  • Свойства выполнения включают состояние выполнения, время и длительность выполнения, а также другие параметры выполнения.

Вы можете выбрать отображение только различий и увидеть встроенные различия или выбрать "Сравнить граф" в правом верхнем углу, чтобы открыть сравнение топологии графа.

Снимок экрана: сравнение сведений с выделенным графиком сравнения.

На следующем снимке экрана показан пример использования сравнения сведений, в котором параметр defaultCompute может быть причиной сбоя.

Снимок экрана: обзор сравнения вычислений по умолчанию.

Сравнение неудачного узла конвейера с аналогичным завершенным узлом

Если вы обновили только свойства узла, можно выполнить отладку узла, сравнивая его с тем же узлом в других заданиях.

  1. Щелкните правой кнопкой мыши узел с ошибкой и выберите "Просмотреть задания ", чтобы получить список заданий.

    Снимок экрана: сбой узла с выделенными заданиями просмотра.

  2. Выберите завершенное задание в качестве целевого объекта сравнения и откройте его.

  3. На обеих страницах заданий нажмите кнопку "Добавить для сравнения " в верхней строке меню, чтобы добавить оба задания в список сравнения .

  4. После того как два задания находятся в списке сравнения, выберите "Сравнить сведения ", чтобы отобразить различия.

Предоставление общего доступа к результатам отладки

Чтобы поделиться результатами отладки с коллегами или другими заинтересованными лицами, выберите "Поделиться " в верхней строке меню. Вы можете копировать ссылку , доступную для совместного использования, в граф или идентификатор задания конвейера копирования, чтобы поделиться с другими пользователями.

Снимок экрана: кнопка общего доступа и ссылка, по которой необходимо скопировать.