Использование пользовательского интерфейса конвейера для отладки сбоев конвейера Машинного обучения Azure

После отправки конвейера вы увидите ссылку на задание конвейера в рабочей области Машинного обучения Azure. Ссылка попадает на страницу задания конвейера в Студия машинного обучения Azure, в которой можно проверка результат и выполнить отладку задания конвейера.

В этой статье описывается, как использовать страницу задания конвейера для отладки сбоев конвейера машинного обучения.

Важно!

Элементы, обозначенные в этой статье как (предварительная версия), сейчас предлагаются в общедоступной предварительной версии. Предварительная версия предоставляется без соглашения об уровне обслуживания и не рекомендована для производственных рабочих нагрузок. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены. Дополнительные сведения см. в статье Дополнительные условия использования предварительных выпусков Microsoft Azure.

Использование структуры для быстрого поиска узла

На странице сведений о задании конвейера слева от холста находится структура, в котором показана общая структура задания конвейера. Наведите указатель мыши на любую строку, чтобы отобразить кнопку "Найти" для поиска узла на холсте.

Снимок экрана: структура и расположение на холсте.

Можно применить фильтр, чтобы отобразить узлы со сбоям и завершенные узлы, а также отобрать только компоненты или наборы данных для дальнейшего поиска. На левой панели отображаются сопоставленные узлы с дополнительными сведениями, включая состояние, длительность и время создания.

Снимок экрана: быстрый фильтр по в поиске структуры > .

Вы также можете отсортировать отфильтрованные узлы.

Снимок экрана: сортировка результатов поиска в структуре > поиска.

Проверка журналов и выходных данных компонента

Если конвейер завершается сбоем или зависает на узле, сначала просмотрите журналы.

  1. Можно выбрать конкретный узел и открыть правую панель.

  2. Выберите вкладку Выходные данные и журналы, где можно изучить все выходные данные и журналы этого узла.

    В папке user_logs содержатся сведения о созданных пользовательских журналах. По умолчанию эта папка открыта, и выбран журнал std_log.txt. В файле std_log.txt содержатся журналы вашего кода (например, инструкции печати).

    В папке system_logs находятся журналы, созданные Машинным обучением Azure. Дополнительные сведения см. в статье Просмотр и скачивание журналов диагностики.

    Снимок экрана: проверка журналов узлов.

    Если эти папки не отображаются, это связано с тем, что обновление времени выполнения вычислений еще не выпущено на вычислительном кластере, и сначала можно просмотреть файл 70_driver_log.txt в папке azureml-logs.

Сравнение различных конвейеров для отладки сбоев или других непредвиденных проблем (предварительная версия)

Сравнение конвейеров определяет различия (включая топологию, свойства компонентов и свойства задания) между несколькими заданиями. Например, можно сравнить успешный конвейер и конвейер, завершившийся сбоем, чтобы определить, какие изменения приводят к сбою конвейера.

Два основных сценария, в которых можно использовать сравнение конвейеров для отладки:

  • Выполните отладку неудачного задания конвейера, сравнив его с завершенным.
  • Выполните отладку узла, на который произошел сбой, в конвейере, сравнив его с аналогичным завершенным.

Чтобы включить эту функцию, сделайте следующее:

  1. Перейдите к Студия машинного обучения Azure пользовательскому интерфейсу.
  2. Выберите Управление функциями предварительного просмотра (значок мегафона) среди значков в правой верхней части экрана.
  3. На панели функций управляемой предварительной версиипереключите параметр Сравнение заданий конвейера, чтобы отладить сбои или непредвиденные проблемы .

Снимок экрана: включена функция управления предварительными версиями.

Отладка неудачного задания конвейера путем сравнения его с завершенным заданием

Во время итеративной разработки модели вы можете создать базовый конвейер, а затем внести некоторые изменения, такие как изменение параметра, набора данных или вычислительного ресурса и т. д. Если новый конвейер завершился сбоем, можно использовать сравнение конвейеров, чтобы определить, что изменилось, сравнив его с базовым конвейером, что поможет выяснить причину сбоя.

Сравнение конвейера с его родительским

Первое, что следует проверка при отладке, — найти узел, на который произошел сбой, и проверка журналы.

Например, может появиться сообщение об ошибке, показывающее, что конвейер завершился сбоем из-за нехватки памяти. Если конвейер клонирован из завершенного родительского конвейера, можно использовать сравнение конвейеров, чтобы увидеть, что изменилось.

  1. Выберите Показать происхождение.

  2. Щелкните ссылку в разделе "Клонированные из". Откроется новая вкладка браузера с родительским конвейером.

    Снимок экрана: клонированная ссылка с выделенной кнопкой происхождения на предыдущем шаге.

  3. Выберите Добавить, чтобы сравнить конвейер, завершив его сбой, и родительский конвейер. Это добавит их в список кандидатов для сравнения.

    Снимок экрана: список сравнения с добавленным родительским и дочерним конвейерами.

Сравнение топологии

После добавления двух конвейеров в список сравнения у вас будет два варианта: сравнение сведений и сравнение графа. Функция сравнения графа позволяет сравнивать топологию конвейера.

Сравнение графа показывает изменения топологии графа между конвейерами A и B. Специальные узлы в конвейере A выделены красным цветом и помечены символом "Только A". Специальные узлы в конвейере B выделены зеленым цветом и помечены символом "Только B". Общие узлы выделены серым цветом. Если на общих узлах есть различия, изменения отображаются в верхней части узла.

Существует три категории изменений, сводки которых можно просмотреть на странице сведений, изменении параметра, источнике входных данных, компоненте конвейера. При изменении компонента конвейера это означает, что в ней произошло изменение топологии или изменение параметра внутреннего узла, можно щелкнуть значок папки на узле компонента конвейера, чтобы получить подробные сведения. Другие изменения можно обнаружить, просмотрев цветные узлы на графе сравнения.

Снимок экрана: измененный параметр и вкладка сведений о компоненте.

Сравнение метаданных и свойств конвейера

Если вы изучите разницу в наборах данных и обнаружите, что данные или топология не являются основной причиной сбоя, можно также проверка сведения о конвейере, такие как параметр конвейера, выходные данные или параметры запуска.

Граф сравнения используется для сравнения топологии конвейера, сравнение сведений используется для сравнения метаданных или параметров ссылок на свойства конвейера.

Чтобы получить доступ к подробному сравнению, перейдите к списку сравнения, выберите Сравнить сведения или Выберите Показать сведения о сравнении на странице сравнения конвейера.

Вы увидите свойства конвейера и Свойства запуска.

  • К свойствам конвейера относятся параметры конвейера, параметры запуска и вывода и т. д.
  • Свойства запуска включают состояние задания, время и длительность отправки и т. д.

На следующем снимку экрана показан пример использования сравнения сведений, где параметр вычислений по умолчанию мог быть причиной сбоя.

Снимок экрана: обзор сравнения вычислений по умолчанию.

Чтобы быстро проверка сравнение топологий, выберите имя конвейера и выберите Сравнить граф.

Снимок экрана: сравнение подробностей с выделенным графом сравнения.

Как отладить неработоспособный узел в конвейере путем сравнения с аналогичным завершенным узлом

Если вы обновили только свойства узла и ничего не изменили в конвейере, можно выполнить отладку узла, сравнив его с заданиями, отправленными из того же компонента.

Поиск задания для сравнения

  1. Найдите успешное задание для сравнения, просмотрев все запуски, отправленные из одного компонента.
    1. Щелкните правой кнопкой мыши узел со сбоем и выберите Просмотр заданий. Вы запустите список всех заданий.

      Снимок экрана: сбойный узел с выделенным представлением заданий.

    2. Выберите завершенное задание в качестве целевого объекта сравнения.

  2. После того как вы обнаружили неудачное и завершенное задание для сравнения, добавьте два задания в список кандидатов на сравнение.
    1. Для узла, завершилось сбоем, щелкните правой кнопкой мыши и выберите Добавить для сравнения.
    2. Для завершенного задания перейдите к его родительскому конвейеру и найдите завершенное задание. Затем нажмите кнопку Добавить для сравнения.
  3. После того как два задания будут включены в список сравнения, выберите Сравнить сведения , чтобы отобразить различия.

Предоставление общего доступа к результатам сравнения

Чтобы поделиться результатами сравнения, выберите Поделиться и скопируйте ссылку. Например, вы можете выяснить, что разница в наборах данных может привести к сбою, но вы не специалист по набору данных, вы можете поделиться результатами сравнения с инженером данных в вашей команде.

Снимок экрана: кнопка

Дальнейшие действия

Из этой статьи вы узнали, как отладить сбои конвейера. Дополнительные сведения об использовании конвейера см. в следующих статьях: