Справочник по настройке кластера Kubernetes для Машинного обучения Azure

В этой статье содержатся справочные сведения о настройке Kubernetes с помощью Машинное обучение Azure.

Поддерживаемая версия и регион Kubernetes

  • Кластеры Kubernetes, устанавливающие расширение Машинное обучение Azure, имеют окно поддержки версий N-2, которое соответствует политике поддержки версий Служба Azure Kubernetes (AKS), где N является последней дополнительной версией общедоступной версии Служба Azure Kubernetes.

    • Например, если AKS сегодня вводит значение 1,20.a, это значит, что поддерживаются версии 1,20.a, 1,20.b, 1.19.c, 1.19.d, 1.18.e и 1.18.f.

    • Если клиенты выполняют неподдерживаемую версию Kubernetes, им предлагается обновиться при запросе поддержки кластера. Кластеры под управлением неподдерживаемых выпусков Kubernetes не охватываются политиками поддержки расширений Машинное обучение Azure.

  • доступность региона расширения Машинное обучение Azure:

При развертывании расширения Машинное обучение Azure некоторые связанные службы развертываются в кластере Kubernetes для Машинное обучение Azure. В следующей таблице перечислены связанные службы и их использование ресурсов в кластере:

Deploy/Daemonset Реплики # Обучение Вывод Запрос ЦП(m) Ограничение ЦП(m) Запрос памяти (Mi) Ограничение памяти (Mi)
metrics-controller-manager 1 10 100 20 300
prometheus-operator 1 100 400 128 512
Прометей 1 100 1000 512 4096
метрики kube-state-metrics 1 10 100 32 256
шлюз 1 50 500 256 2048
fluent-bit 1 на узел 10 200 100 300
inference-operator-controller-manager 1 Н/П 100 1000 128 1024
amlarc-identity-controller 1 Н/П 200 1000 200 1024
amlarc-identity-proxy 1 Н/П 200 1000 200 1024
azureml-ingress-nginx-controller 1 Н/П 100 1000 64 512
azureml-fe-v2 1 (для тестирования)
или
3 (для рабочей цели)
Н/П 900 2000 800 1200
онлайн-развертывание 1 на развертывание Создано пользователем Н/П <определяемые пользователем> <определяемые пользователем> <определяемые пользователем> <определяемые пользователем>
онлайн-развертывание/удостоверений 1 на развертывание Н/П 10 50 100 100
AML-оператор 1 Н/П 20 1020 124 2168
volcano-admission 1 Н/П 10 100 64 256
контроллер вулкана 1 Н/П 50 500 128 512
вулкан-шedular 1 Н/П 50 500 128 512

Кроме собственных развертываний и модулей pod, общие минимальные требования к системным ресурсам приведены следующим образом:

Сценарий Включенная вывод Обучение с поддержкой Запрос ЦП(m) Ограничение ЦП(m) Запрос памяти (Mi) Ограничение памяти (Mi) Число узлов Рекомендуемый минимальный размер виртуальной машины Соответствующий номер SKU виртуальной машины AKS
Тестирование Н/П 1780 8300 2440 12296 1 узел 2 виртуальных ЦП, 7 ГиБ памяти, 6400 операций ввода-вывода в секунду, 1500 Мбит/с BW DS2v2
Тестирование Н/П 410 4420 1492 10960 1 узел 2 виртуальных ЦП, 7 ГиБ памяти, 6400 операций ввода-вывода в секунду, 1500 Мбит/с BW DS2v2
Тестирование 1910 10420 2884 15744 1 узел 4 виртуальных ЦП, 14 ГиБ памяти, 12800 операций ввода-вывода в секунду, 1500 Мб в секунду BW DS3v2
Рабочая среда Н/П 3600 12700 4240 15296 3 узла 4 виртуальных ЦП, 14 ГиБ памяти, 12800 операций ввода-вывода в секунду, 1500 Мб в секунду BW DS3v2
Рабочая среда Н/П 410 4420 1492 10960 1 Узлы 8 виртуальных ЦП, 28GiB Memroy, 25600 операций ввода-вывода в секунду, 6000 Мбит/с BW DS4v2
Рабочая среда 3730 14820 4684 18744 3 узла 4 виртуальных ЦП, 14 ГиБ памяти, 12800 операций ввода-вывода в секунду, 1500 Мб в секунду BW DS4v2

Примечание.

  • Для тестирования следует ссылаться на запрос ресурса tp.
  • Для рабочей цели следует ссылаться на ограничение ресурсов.

Важно!

Ниже приведены некоторые другие рекомендации по использованию:

  • Для повышения пропускной способности сети и повышения производительности операций ввода-вывода диска рекомендуется более крупный номер SKU.
    • Возьмите DV2/DSv2 в качестве примера, используя большой номер SKU, может сократить время извлечения изображения для повышения производительности сети или хранилища.
    • Дополнительные сведения о резервировании AKS можно найти в резервировании AKS.
  • Если вы используете кластер AKS, вам может потребоваться рассмотреть вопрос об ограничении размера образа контейнера в AKS, дополнительные сведения можно найти в ограничении размера образа контейнера AKS.

Предварительные требования для кластеров ARO или OCP

Отключение расширенной системы безопасности Linux (SELinux)

Машинное обучение Azure набор данных (компонент SDK версии 1, используемый в заданиях обучения Машинное обучение Azure), не поддерживается на компьютерах с поддержкой SELinux. Поэтому для использования Машинное обучение Azure набора данных необходимо отключить selinux все рабочие роли.

Привилегированная настройка для ARO и OCP

Для развертывания расширений Машинное обучение Azure в кластере ARO или OCP предоставьте привилегированный доступ к учетным записям службы Машинное обучение Azure, выполните oc edit scc privileged команду и добавьте следующие учетные записи службы в разделе "пользователи:":

  • system:serviceaccount:azure-arc:azure-arc-kube-aad-proxy-sa
  • system:serviceaccount:azureml:{EXTENSION-NAME}-kube-state-metrics
  • system:serviceaccount:azureml:prom-admission
  • system:serviceaccount:azureml:default
  • system:serviceaccount:azureml:prom-operator
  • system:serviceaccount:azureml:load-amlarc-selinux-policy-sa
  • system:serviceaccount:azureml:azureml-fe-v2
  • system:serviceaccount:azureml:prom-prometheus
  • system:serviceaccount:{KUBERNETES-COMPUTE-NAMESPACE}:default
  • system:serviceaccount:azureml:azureml-ingress-nginx
  • system:serviceaccount:azureml:azureml-ingress-nginx-admission

Примечание.

  • {EXTENSION-NAME}: имя расширения, указанное в команде CLI az k8s-extension create --name.
  • {KUBERNETES-COMPUTE-NAMESPACE}: пространство имен вычислений Kubernetes, указанное при присоединении вычислений к рабочей области Машинного обучения Azure. Пропустите настройку system:serviceaccount:{KUBERNETES-COMPUTE-NAMESPACE}:default, если для KUBERNETES-COMPUTE-NAMESPACE задано значение default.

Собранные сведения о журнале

Некоторые журналы о Машинное обучение Azure рабочих нагрузок в кластере будут собираться с помощью компонентов расширения, таких как состояние, метрики, жизненный цикл и т. д. В следующем списке показаны все собранные сведения о журнале, включая тип собранных журналов и место их отправки или хранения.

Объект pod Описание ресурса Подробные сведения о ведении журнала
amlarc-identity-controller Запрос и продление токена BLOB-объекта Azure/Реестра контейнеров Azure с помощью управляемого удостоверения. Используется enableInference=true только при установке расширения. Он содержит журналы трассировки для получения удостоверения конечных точек для проверки подлинности с помощью службы Машинное обучение Azure.
amlarc-identity-proxy Запрос и продление токена BLOB-объекта Azure/Реестра контейнеров Azure с помощью управляемого удостоверения. Используется enableInference=true только при установке расширения. В нем есть журналы трассировки для получения удостоверения для кластера для проверки подлинности с помощью службы Машинное обучение Azure.
AML-оператор Управление жизненным циклом учебных заданий. Журналы содержат Машинное обучение Azure состояние pod задания обучения в кластере.
azureml-fe-v2 Интерфейсный компонент, который направляет входящие запросы вывода в развернутые службы. Доступ к журналам на уровне запроса, включая идентификатор запроса, время начала, код ответа, сведения об ошибке и длительность задержки запроса. Журналы трассировки для изменений метаданных службы, работоспособности службы и т. д. для целей отладки.
шлюз Шлюз используется для взаимодействия и обмена данными. Журналы трассировки запросов из служб Машинное обучение Azure в кластеры.
работоспособности проверка -- Журналы содержат azureml состояние ресурса пространства имен (Машинное обучение Azure расширения) для диагностики того, что расширение не работает.
inference-operator-controller-manager Управление жизненным циклом конечных точек вывода. Журналы содержат Машинное обучение Azure конечную точку вывода и состояние модуля pod развертывания в кластере.
metrics-controller-manager Управление конфигурацией для Prometheus. Журналы трассировки для отправки заданий обучения и метрик развертывания вывода по использованию ЦП и использованию памяти.
сервер ретранслятора Сервер ретранслятора необходим только в кластере, подключенном к arc, и не будет установлен в кластере AKS. Сервер ретрансляции работает с Azure Relay для взаимодействия с облачными службами. Журналы содержат сведения о уровне запроса из ретранслятора Azure.

Машинное обучение Azure задания подключаются к пользовательскому хранилищу данных

Постоянный том (PV) и утверждение постоянного тома (PVC) — это концепция Kubernetes, позволяющая пользователю предоставлять и применять различные ресурсы хранилища.

  1. Создайте PV, взяв NFS в качестве примера
apiVersion: v1
kind: PersistentVolume
metadata:
  name: nfs-pv 
spec:
  capacity:
    storage: 1Gi 
  accessModes:
    - ReadWriteMany 
  persistentVolumeReclaimPolicy: Retain
  storageClassName: ""
  nfs: 
    path: /share/nfs
    server: 20.98.110.84 
    readOnly: false
  1. Создайте PVC в том же пространстве имен Kubernetes с рабочими нагрузками Машинного обучения. В metadataэтом случае необходимодобавить метку ml.azure.com/pvc: "true" для распознавания Машинное обучение Azure и добавить заметкуml.azure.com/mountpath: <mount path>, чтобы задать путь подключения.
apiVersion: v1
kind: PersistentVolumeClaim
metadata:
  name: nfs-pvc  
  namespace: default
  labels:
    ml.azure.com/pvc: "true"
  annotations:
    ml.azure.com/mountpath: "/mnt/nfs"
spec:
  storageClassName: ""
  accessModes:
  - ReadWriteMany      
  resources:
     requests:
       storage: 1Gi

Важно!

  • Только задание или компонент команды, задание или компонент hyperdrive и пакетное развертывание поддерживают пользовательское хранилище данных из ПВХ. > * Конечная точка в режиме реального времени, задание AutoML и PRS не поддерживают пользовательское хранилище данных из ПВХ.
  • Кроме того, только модули pod в том же пространстве имен Kubernetes с ПВХ будут подключены. Специалист по обработке и анализу данных может получить доступ к mount path, указанному в заметке PVC в задании. Задание AutoML и задание Prs не будут иметь доступа к ПВХ.

Поддерживаемые ограничения и разрешения Машинного обучения Azure

Tint и Toleration — это основные понятия Kubernetes, которые работают вместе, чтобы гарантировать, что модули pod не запланированы на неуместные узлы.

Кластеры Kubernetes, интегрированные с Машинное обучение Azure (включая кластеры AKS и Arc Kubernetes), теперь поддерживают определенные Машинное обучение Azure тонации и терпимости, что позволяет пользователям добавлять определенные Машинное обучение Azure тоны на них. Машинное обучение Azure выделенные узлы, чтобы предотвратить планирование рабочих нагрузок без Машинное обучение Azure на эти выделенные узлы.

Мы поддерживаем размещение на узлах только определенных идентификаторов amlarc, которые определяются следующим образом:

Зараза Ключ Значение Действие Description
Amlarc в целом ml.azure.com/amlarc true NoSchedule, NoExecute или PreferNoSchedule Все Машинное обучение Azure рабочие нагрузки, включая модули pod службы расширений и модули pod рабочей нагрузки машинного обучения, будут терпеть этот amlarc overall оттенок.
система amlarc ml.azure.com/amlarc-system true NoSchedule, NoExecute или PreferNoSchedule Только Машинное обучение Azure модули pod систем расширения будут терпеть этот amlarc system оттенок.
Рабочая нагрузка amlarc ml.azure.com/amlarc-workload true NoSchedule, NoExecute или PreferNoSchedule Только модули pod рабочей нагрузки машинного обучения будут терпеть этот amlarc workload оттенок.
Группа ресурсов amlarc ml.azure.com/resource-group <Имя группы ресурсов> NoSchedule, NoExecute или PreferNoSchedule Только модули pod рабочей нагрузки машинного обучения, созданные из конкретной группы ресурсов, будут терпеть этот amlarc resource group оттенок.
Рабочая область amlarc ml.azure.com/workspace <Имя рабочей области> NoSchedule, NoExecute или PreferNoSchedule Только модули pod рабочей нагрузки машинного обучения, созданные из конкретной рабочей области, будут допускать этот amlarc workspace оттенок.
вычисление amlarc ml.azure.com/compute <имя вычислений> NoSchedule, NoExecute или PreferNoSchedule Только модули pod рабочей нагрузки машинного обучения, созданные с определенным целевым целевым объектом вычислений, будут допускать этот amlarc compute оттенок.

Совет

  1. Для Служба Azure Kubernetes(AKS) можно выполнить пример в статье "Рекомендации по расширенным функциям планировщика" в Служба Azure Kubernetes (AKS), чтобы применить фрагменты к пулам узлов.
  2. Для кластеров Arc Kubernetes, таких как локальные кластеры Kubernetes, можно использовать kubectl taint команду для добавления запятых к узлам. Дополнительные примеры см. в документации Kubernetes.

Рекомендации

В соответствии с требованиями к планированию выделенных Машинное обучение Azure узлов можно добавить несколько тонов, относящихся к amlarc, чтобы ограничить то, что Машинное обучение Azure рабочие нагрузки могут выполняться на узлах. Мы перечислим рекомендации по использованию амларковых оттенков:

  • Чтобы не Машинное обучение Azure рабочие нагрузки выполнялись на выделенных Машинное обучение Azure узлах или пулах узлов, можно просто добавить их в aml overall эти узлы.
  • Чтобы предотвратить запуск модулей pod, не относящихся к системе, на Машинное обучение Azure выделенных узлах или пулах узлов, необходимо добавить следующие фрагменты:
    • amlarc overall Зараза
    • amlarc system Зараза
  • Чтобы предотвратить выполнение рабочих нагрузок, отличных от машинного обучения, на выделенных Машинное обучение Azure узлах или пулах узлов, необходимо добавить следующие фрагменты:
    • amlarc overall Зараза
    • amlarc workloads Зараза
  • Чтобы предотвратить работу рабочих нагрузок, не созданных из рабочей области X, на Машинное обучение Azure выделенных узлах или пулах узлов необходимо добавить следующие фрагменты:
    • amlarc overall Зараза
    • amlarc resource group (has this <workspace X>) Зараза
    • amlarc <workspace X> Зараза
  • Чтобы предотвратить работу рабочих нагрузок, не созданных целевым объектом вычислений X, на выделенных Машинное обучение Azure узлах или пулах узлов необходимо добавить следующие фрагменты:
    • amlarc overall Зараза
    • amlarc resource group (has this <workspace X>) Зараза
    • amlarc workspace (has this <compute X>) Зараза
    • amlarc <compute X> Зараза

Интеграция другого контроллера входящего трафика с расширением Машинное обучение Azure по протоколу HTTP или HTTPS

Помимо Машинное обучение Azure по умолчанию подсистема балансировки нагрузки azureml-fe по умолчанию, можно также интегрировать другие подсистемы балансировки нагрузки с расширением Машинное обучение Azure по протоколу HTTP или HTTPS.

В этом руководстве показано, как интегрировать контроллер входящего трафика Nginx или Шлюз приложений Azure.

Необходимые компоненты

  • Разверните расширение Машинное обучение Azure с inferenceRouterServiceType=ClusterIP помощью и allowInsecureConnections=True, чтобы контроллер Ingress Nginx сам может обрабатывать завершение TLS, а не передавать его в azureml-fe, когда служба предоставляется по протоколу HTTPS.
  • Для интеграции с контроллером Ingress Nginx требуется настройка кластера Kubernetes с контроллером Ingress Nginx.
  • Для интеграции с Шлюз приложений Azure требуется настройка кластера Kubernetes с Шлюз приложений Azure контроллером входящего трафика.
    • Развертывание Greenfield: если вы начинаете с нуля, ознакомьтесь с этими инструкциями.
    • Развертывание Brownfield: если у вас есть существующий кластер AKS и Шлюз приложений, ознакомьтесь с этими инструкциями.
  • Если вы хотите использовать HTTPS в этом приложении, вам нужен сертификат x509 и его закрытый ключ.

Предоставление служб по протоколу HTTP

Чтобы предоставить azureml-fe, мы будем использовать следующий ресурс входящего трафика:

# Nginx Ingress Controller example
apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
  name: azureml-fe
  namespace: azureml
spec:
  ingressClassName: nginx
  rules:
  - http:
      paths:
      - path: /
        backend:
          service:
            name: azureml-fe
            port:
              number: 80
        pathType: Prefix

Эта входящий трафик предоставляет azureml-fe службу и выбранное развертывание в качестве серверной части контроллера входящего трафика Nginx по умолчанию.

# Azure Application Gateway example
apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
  name: azureml-fe
  namespace: azureml
spec:
  ingressClassName: azure-application-gateway
  rules:
  - http:
      paths:
      - path: /
        backend:
          service:
            name: azureml-fe
            port:
              number: 80
        pathType: Prefix

Эта входящий трафик предоставляет azureml-fe службу и выбранное развертывание в качестве серверной части Шлюз приложений по умолчанию.

Сохраните указанный выше ресурс входящего трафика как ing-azureml-fe.yaml.

  1. Разверните ing-azureml-fe.yaml, выполнив следующую команду:

    kubectl apply -f ing-azureml-fe.yaml
    
  2. Проверьте состояние развертывания в журнале контроллера объекта ingress.

  3. Теперь приложение azureml-fe должно быть доступно. Вы можете проверка, перейдя по адресу:

    • Контроллер входящего трафика Nginx: общедоступный адрес LoadBalancer контроллера Ingress Nginx
    • Шлюз приложений Azure: общедоступный адрес Шлюз приложений.
  4. Создайте задание вывода и вызов.

    Примечание.

    Замените IP-адрес в scoring_uri общедоступным адресом LoadBalancer контроллера Ingress Nginx перед вызовом.

Предоставление служб по протоколу HTTPS

  1. Прежде чем развертывать объект ingress, необходимо создать секрет Kubernetes для размещения сертификата и закрытого ключа. Чтобы создать секрет Kubernetes, выполните следующую команду:

    kubectl create secret tls <ingress-secret-name> -n azureml --key <path-to-key> --cert <path-to-cert>
    
  2. Задайте указанные ниже параметры входящего трафика. В параметрах входящего трафика укажите имя секрета в разделе secretName.

    # Nginx Ingress Controller example
    apiVersion: networking.k8s.io/v1
    kind: Ingress
    metadata:
      name: azureml-fe
      namespace: azureml
    spec:
      ingressClassName: nginx
      tls:
      - hosts:
        - <domain>
        secretName: <ingress-secret-name>
      rules:
      - host: <domain>
        http:
          paths:
          - path: /
            backend:
              service:
                name: azureml-fe
                port:
                  number: 80
            pathType: Prefix
    
    # Azure Application Gateway example
    apiVersion: networking.k8s.io/v1
    kind: Ingress
    metadata:
      name: azureml-fe
      namespace: azureml
    spec:
      ingressClassName: azure-application-gateway
      tls:
      - hosts:
        - <domain>
        secretName: <ingress-secret-name>
      rules:
      - host: <domain>
        http:
          paths:
          - path: /
            backend:
              service:
                name: azureml-fe
                port:
                  number: 80
            pathType: Prefix
    

    Примечание.

    Замените <domain> и <ingress-secret-name> в приведенном выше ресурсе входящего трафика доменом, указывающим на LoadBalancer контроллера входящего трафика Nginx/Шлюз приложений и имя секрета. Сохраните указанный выше ресурс входящего трафика в файла под названием ing-azureml-fe-tls.yaml.

  3. Развертывание ing-azureml-fe-tls.yaml путем выполнения

    kubectl apply -f ing-azureml-fe-tls.yaml
    
  4. Проверьте состояние развертывания в журнале контроллера объекта ingress.

  5. Теперь приложение доступно по протоколу azureml-fe HTTPS. Это можно проверка, перейдя по общедоступному адресу LoadBalancer контроллера Ingress Nginx.

  6. Создайте задание вывода и вызов.

    Примечание.

    Замените протокол и IP-адрес в scoring_uri https и доменом, указывающим на LoadBalancer контроллера входящего трафика Nginx или Шлюз приложений перед вызовом.

Использование шаблона ARM для развертывания расширения

Расширение в управляемом кластере можно развернуть с помощью шаблона ARM. Пример шаблона можно найти из deployextension.json с демонстрационным файлом параметров deployextension.parameters.json.

Чтобы использовать пример шаблона развертывания, измените файл параметров с правильным значением, а затем выполните следующую команду:

az deployment group create --name <ARM deployment name> --resource-group <resource group name> --template-file deployextension.json --parameters deployextension.parameters.json

Дополнительные сведения об использовании шаблона ARM см. в документации по шаблону ARM.

Примечание о выпуске расширения AzuremML

Примечание.

Новые возможности выпускаются в календаре двухнедельного календаря.

Date Версия Описание версии
21 ноября 2023 г. 1.1.39 Исправлены уязвимости. Уточненное сообщение об ошибке. Повышенная стабильность для API ретранслятора.
1 ноября 2023 г. 1.1.37 Обновите версию посланника плоскости данных.
11 октября 2023 г. 1.1.35 Исправлено уязвимое изображение. Исправления ошибок.
25 августа 2023 г. 1.1.34 Исправлено уязвимое изображение. Возвращает более подробную ошибку удостоверения. Исправления ошибок.
18 июля 2023 г. 1.1.29 Добавьте новые ошибки оператора удостоверений. Исправления ошибок.
4 июня 2023 г. 1.1.28 Улучшение автоматического масштабирования для обработки нескольких пулов узлов. Исправления ошибок.
18 апреля 2023 г. 1.1.26 Исправление ошибок и исправление уязвимостей.
27 марта 2023 г. 1.1.25 Добавьте Машинное обучение Azure регулирование задания. Быстрый сбой для задания обучения при сбое установки SSH. Уменьшите интервал слома Prometheus до 30-х. Улучшение сообщений об ошибках для вывода. Исправлено уязвимое изображение.
7 марта 2023 г. 1.1.23 Измените тип экземпляра по умолчанию, чтобы использовать память 2Gi. Обновите конфигурации метрик для оценки fe, которые добавляют 15s scrape_interval. Добавьте спецификацию ресурсов для бокового автомобиля mdc. Исправлено уязвимое изображение. Исправления ошибок.
14 февраля 2023 г. 1.1.21 Исправления ошибок.
7 февраля 2023 г. 1.1.19 Улучшение сообщения об ошибке для вывода. Обновите тип экземпляра по умолчанию, чтобы использовать ограничение памяти 2Gi. Проверка работоспособности кластера для работоспособности pod, квоты ресурсов, версии Kubernetes и версии расширения. Исправления ошибок
27 декабря 2022 г. 1.1.17 Переместите бит Fluent из DaemonSet в боковики. Добавьте поддержку MDC. Уточнение сообщений об ошибках. Поддержка заданий в режиме кластера (windows, linux). Исправления ошибок
29 ноября 2022 г. 1.1.16 Добавьте проверку типа экземпляра новым CRD. Поддержка допустимости. Сокращено имя SVC. Основной час рабочей нагрузки. Несколько исправлений ошибок и улучшений.
13 сентября 2022 г. 1.1.10 Исправления ошибок.
29 августа 2022 г. 1.1.9 Улучшена логика проверка работоспособности. Исправления ошибок.
23 июня 2022 г. 1.1.6 Исправления ошибок.
15 июня 2022 г. 1.1.5 Обновлено обучение, чтобы использовать новую общую среду выполнения для выполнения заданий. Удалено использование Azure Relay для расширения AKS. Удалено использование служебной шины из расширения. Обновлено использование контекста безопасности. Обновлено определение azureml-fe до версии 2. Обновлено, чтобы использовать вулкан в качестве планировщика заданий обучения. Исправления ошибок.
14 октября 2021 г. 1.0.37 Поддержка подключения томов PV/PVC в задании обучения AMLArc.
16 сентября 2021 г. 1.0.29 Новые регионы доступны, WestUS, CentralUS, NorthCentralUS, KoreaCentralral. Расширяемость очереди заданий. Дополнительные сведения о очереди заданий см. в Машинное обучение Azure Workspace Studio. Политика автоматического убийства. Поддержка max_run_duration_seconds в ScriptRunConfig. Система пытается автоматически отменить выполнение, если оно заняло больше времени, чем значение параметра. Повышение производительности для поддержки автоматического масштабирования кластера. Развертывание агента Arc и расширения машинного обучения из локального реестра контейнеров.
24 августа 2021 г. 1.0.28 Тип вычислительного экземпляра поддерживается в задании YAML. Назначьте управляемое удостоверение вычислению AMLArc.
10 августа 2021 г. 1.0.20 Новая поддержка распространения Kubernetes, K3S — упрощенная версия Kubernetes. Разверните расширение Машинное обучение Azure в кластере AKS без подключения через Azure Arc. Автоматическая Машинное обучение (AutoML) с помощью пакета SDK для Python. Используйте интерфейс командной строки 2.0, чтобы подключить кластер Kubernetes к Машинное обучение Azure рабочей области. Оптимизируйте использование ресурсов ЦП и памяти Машинное обучение Azure компонентов расширения.
2 июля 2021 г. 1.0.13 Новые дистрибутивы Kubernetes, OpenShift Kubernetes и GKE (Google Kubernetes Engine). Поддержка автомасштабирования. Если управляемый пользователем кластер Kubernetes включает автоматическое масштабирование, кластер автоматически масштабируется или масштабируется в соответствии с объемом активных запусков и развертываний. Улучшение производительности средства запуска заданий, что сокращает время выполнения задания на большое количество.