глоссарий Машинное обучение Azure

Глоссарий Машинное обучение Azure — это краткий словарь терминологии для платформы Машинное обучение. Общие терминологии Azure см. также:

Компонент

Компонент Машинное обучение — это автономный фрагмент кода, который выполняет один шаг в конвейере машинного обучения. Компоненты — это стандартные блоки более сложных конвейеров машинного обучения. Компоненты могут выполнять такие задачи, как обработка данных, обучение модели и оценка моделей. Компонент аналогиен функции. Он имеет имя и параметры, ожидает входные данные и возвращает выходные данные.

Службы вычислений

Вычисление — это выделенный вычислительный ресурс, где выполняется задание или размещена конечная точка. Машинное обучение поддерживает следующие типы вычислений:

  • Вычислительный кластер: инфраструктура управляемых вычислений, которую можно использовать для упрощения создания кластера вычислительных узлов ЦП или GPU в облаке.

    Примечание.

    Вместо создания вычислительного кластера используйте бессерверные вычисления для разгрузки управления жизненным циклом вычислений в Машинное обучение Azure.

  • Вычислительный экземпляр: полностью настроенная и управляемая среда разработки в облаке. Экземпляр можно использовать в качестве вычислений для обучения или вывода для разработки и тестирования. Это похоже на виртуальную машину в облаке.

  • Кластер Kubernetes: используется для развертывания обученных моделей машинного обучения в Служба Azure Kubernetes (AKS). Кластер AKS можно создать из рабочей области Машинное обучение или подключить существующий кластер AKS.

  • Подключенные вычислительные ресурсы. Вы можете подключить собственные вычислительные ресурсы к рабочей области и использовать их для обучения и вывода.

Data

Машинное обучение позволяет работать с различными типами данных:

  • URI (расположение в локальном или облачном хранилище):
    • uri_folder
    • uri_file
  • Таблицы (абстракция табличных данных):
    • mltable
  • Примитивы:
    • string
    • boolean
    • number

В большинстве случаев вы используете URI (uri_folder и uri_file) для идентификации расположения в хранилище, которое можно легко сопоставить с файловой системой вычислительного узла в задании путем подключения или скачивания хранилища на узел.

Параметр mltable — это абстракция табличных данных, используемых для заданий автоматического машинного обучения (AutoML), параллельных заданий и некоторых расширенных сценариев. Если вы начинаете использовать Машинное обучение и не используете AutoML, мы настоятельно рекомендуем начать с URI.

Хранилище данных

Машинное обучение хранилища данных безопасно сохраняют сведения о подключении к хранилищу данных в Azure, чтобы кодировать их в скриптах не нужно. Вы можете зарегистрировать и создать хранилище данных, чтобы легко подключиться к учетной записи хранения и получить доступ к данным в базовой службе хранилища. Интерфейс командной строки Машинное обучение Azure версии 2 и пакет SDK версии 2 поддерживают следующие типы облачных служб хранилища:

  • Контейнер хранилища BLOB-объектов Azure
  • Общая папка "Файлы Azure"
  • Azure Data Lake Storage
  • Azure Data Lake Storage 2-го поколения

Среда

Машинное обучение среда — это инкапсуляция среды, в которой происходит задача машинного обучения. Среды Машинного обучения Azure определяют пакеты программного обеспечения, переменные среды и настройки программного обеспечения, связанные с вашими сценариями обучения и оценок. Среды представляют собой управляемые сущности с возможностью управления версиями в рабочей области Машинного обучения. Среды обеспечивают воспроизводимые, проверяемые и переносимые рабочие процессы машинного обучения в различных вычислительных средах.

Типы среды

Машинное обучение поддерживает два типа сред: курируемые и настраиваемые.

Управляемые среды предоставляются Машинное обучение и доступны в рабочей области по умолчанию. Они предназначены для использования как есть. Они содержат коллекции пакетов и параметров Python, которые помогут вам приступить к работе с различными платформами машинного обучения. Эти предварительно созданные среды также позволяют ускорить развертывание. Полный список доступных сред см. в Машинное обучение Azure средах с помощью ИНТЕРФЕЙСА командной строки и пакета SDK версии 2.

В пользовательских средах вы отвечаете за настройку среды. Обязательно установите пакеты и любые другие зависимости, необходимые для обучения или оценки скрипта вычислений. Машинное обучение позволяет создавать собственную среду с помощью:

  • Образ Docker.
  • Базовый образ Docker с conda YAML для дальнейшей настройки.
  • Контекст сборки Docker.

Модель

Машинное обучение модели состоят из двоичных файлов, представляющих модель машинного обучения и все соответствующие метаданные. Модели можно создавать из локального или удаленного файла или каталога. Для удаленных расположений, httpswasbsи azureml расположений поддерживаются. Созданная модель отслеживается в рабочей области под указанным именем и версией. Машинное обучение поддерживает три типа форматов хранилища для моделей:

  • custom_model
  • mlflow_model
  • triton_model

Рабочая область

Рабочая область — это ресурс верхнего уровня для Машинное обучение. Он предоставляет централизованное место для работы со всеми артефактами, создаваемыми при использовании Машинное обучение. Она также хранит историю всех заданий, включая журналы, метрики, выходные данные и моментальный снимок скриптов. В рабочей области хранятся ссылки на ресурсы, такие как хранилища данных и вычислительные ресурсы. Он также содержит все ресурсы, такие как модели, среды, компоненты и ресурсы данных.

Следующие шаги

Что такое Машинное обучение Azure?