Azure Machine Learning 用に Kubernetes クラスターを構成するためのリファレンス
この記事には、Azure Machine Learning を使用した Kubernetes の構成に関する参考情報が含まれています。
サポートされている Kubernetes のバージョンとリージョン
Azure Machine Learning 拡張機能をインストールする Kubernetes クラスターには、Azure Kubernetes Service (AKS) バージョンのサポート ポリシーに沿った "N-2" のバージョン サポート ウィンドウが含まれます。ここで "N" は、Azure Kubernetes Service の最新 GA マイナー バージョンを示します。
たとえば、AKS の 1.20.a が今日導入される場合、サポートされるバージョンは、1.20.a、1.20.b、1.19.c、1.19.d、1.18.e、1.18.f になります。
お客様がサポートされていない Kubernetes バージョンを実行している場合は、クラスターのサポートを要求したときにアップグレードするよう求められます。 サポートされていない Kubernetes リリースを実行しているクラスターは、Azure Machine Learning 拡張機能サポート ポリシーの対象ではありません。
Azure Machine Learning 拡張機能が利用可能なリージョン
- Azure Machine Learning 拡張機能は、Azure Arc 対応 Kubernetes リージョン サポートに記載されているサポートされているリージョンの AKS または Azure Arc 対応 Kubernetes にデプロイできます。
推奨されるリソース計画
Azure Machine Learning 拡張機能をデプロイすると、Azure Machine Learning のためにいくつかの関連サービスが Kubernetes クラスターにデプロイされます。 次の表は、クラスター内の関連サービスとそのリソースの使用状況を示します。
デプロイ/デーモンセット | レプリカ数 | トレーニング | 推論 | CPU 要求 (m) | CPU 制限 (m) | メモリ要求 (Mi) | メモリ制限 (Mi) |
---|---|---|---|---|---|---|---|
metrics-controller-manager | 1 | ✓ | ✓ | 10 | 100 | 20 | 300 |
prometheus-operator | 1 | ✓ | ✓ | 100 | 400 | 128 | 512 |
prometheus | 1 | ✓ | ✓ | 100 | 1000 | 512 | 4096 |
kube-state-metrics | 1 | ✓ | ✓ | 10 | 100 | 32 | 256 |
gateway | 1 | ✓ | ✓ | 50 | 500 | 256 | 2048 |
fluent-bit | ノードあたり 1 | ✓ | ✓ | 10 | 200 | 100 | 300 |
inference-operator-controller-manager | 1 | ✓ | 該当なし | 100 | 1000 | 128 | 1024 |
amlarc-identity-controller | 1 | ✓ | 該当なし | 200 | 1000 | 200 | 1024 |
amlarc-identity-proxy | 1 | ✓ | 該当なし | 200 | 1000 | 200 | 1024 |
azureml-ingress-nginx-controller | 1 | ✓ | 該当なし | 100 | 1000 | 64 | 512 |
azureml-fe-v2 | 1 (テスト目的の場合) または 3 (運用目的の場合) |
✓ | 該当なし | 900 | 2000 | 800 | 1200 |
online-deployment | デプロイあたり 1 | ユーザーが作成 | 該当なし | <user-define> | <user-define> | <user-define> | <user-define> |
online-deployment/identity-sidecar | デプロイあたり 1 | ✓ | 該当なし | 10 | 50 | 100 | 100 |
aml-operator | 1 | 該当なし | ✓ | 20 | 1020 | 124 | 2168 |
volcano-admission | 1 | 該当なし | ✓ | 10 | 100 | 64 | 256 |
volcano-controller | 1 | 該当なし | ✓ | 50 | 500 | 128 | 512 |
volcano-schedular | 1 | 該当なし | ✓ | 50 | 500 | 128 | 512 |
独自のデプロイ/ポッドを除き、システム リソースの最小要件の合計は次のとおりです。
シナリオ | 推論が有効 | トレーニングが有効 | CPU 要求 (m) | CPU 制限 (m) | メモリ要求 (Mi) | メモリ制限 (Mi) | ノード数 | 推奨の最小 VM サイズ | 対応する AKS VM SKU |
---|---|---|---|---|---|---|---|---|---|
テスト用 | ✓ | 該当なし | 1780 | 8300 | 2440 | 12296 | 1 ノード | vCPU × 2、7 GiB メモリ、6400 IOPS、1500 Mbps BW | DS2v2 |
テスト用 | 該当なし | ✓ | 410 | 4420 | 1492 | 10960 | 1 ノード | vCPU × 2、7 GiB メモリ、6400 IOPS、1500 Mbps BW | DS2v2 |
テスト用 | ✓ | ✓ | 1910 | 10420 | 2884 | 15744 | 1 ノード | vCPU × 4、14 GiB メモリ、12800 IOPS、1500 Mbps BW | DS3v2 |
実稼動用 | ✓ | 該当なし | 3600 | 12700 | 4240 | 15296 | 3 ノード | vCPU × 4、14 GiB メモリ、12800 IOPS、1500 Mbps BW | DS3v2 |
実稼動用 | 該当なし | ✓ | 410 | 4420 | 1492 | 10960 | 1 ノード | vCPU × 8、28 GiB メモリ、25600 IOPS、6000 Mbps BW | DS4v2 |
実稼動用 | ✓ | ✓ | 3730 | 14820 | 4684 | 18744 | 3 ノード | vCPU × 4、14 GiB メモリ、12800 IOPS、1500 Mbps BW | DS4v2 |
Note
- テスト目的の場合は、リソース要求を参照する必要があります。
- 運用目的の場合は、リソース制限を参照する必要があります。
重要
他のいくつかの考慮事項を次に示します。
- ネットワーク帯域幅を広げ、ディスク I/O パフォーマンスを向上させるには、SKU を大きくすることをお勧めします。
- AKS クラスターを使用している場合は、AKS のコンテナー イメージのサイズ制限について検討するとよいでしょう。詳細については、「AKS コンテナー イメージのサイズ制限」を参照してください。
ARO または OCP クラスターの前提条件
セキュリティ強化 Linux (SELinux) が無効
SELinux が有効になっているマシンでは、Azure Machine Learning データセット (Azure Machine Learning トレーニング ジョブで使用される SDK v1 の機能) はサポートされていません。 したがって、Azure Machine Learning データセットを使用するには、すべての worker で selinux
を無効にする必要があります。
ARO と OCP の特権設定
ARO または OCP クラスターでの Azure Machine Learning 拡張機能のデプロイの場合は、Azure Machine Learning サービス アカウントへの特権アクセスを付与し、oc edit scc privileged
コマンドを実行して、"users:" の下に次のサービス アカウントを追加します。
system:serviceaccount:azure-arc:azure-arc-kube-aad-proxy-sa
system:serviceaccount:azureml:{EXTENSION-NAME}-kube-state-metrics
system:serviceaccount:azureml:prom-admission
system:serviceaccount:azureml:default
system:serviceaccount:azureml:prom-operator
system:serviceaccount:azureml:load-amlarc-selinux-policy-sa
system:serviceaccount:azureml:azureml-fe-v2
system:serviceaccount:azureml:prom-prometheus
system:serviceaccount:{KUBERNETES-COMPUTE-NAMESPACE}:default
system:serviceaccount:azureml:azureml-ingress-nginx
system:serviceaccount:azureml:azureml-ingress-nginx-admission
注意
{EXTENSION-NAME}
:az k8s-extension create --name
CLI コマンドで指定された拡張機能名。{KUBERNETES-COMPUTE-NAMESPACE}
: コンピューティングを Azure Machine Learning ワークスペースにアタッチする際に指定される Kubernetes コンピューティングの名前空間。KUBERNETES-COMPUTE-NAMESPACE
がdefault
の場合は、system:serviceaccount:{KUBERNETES-COMPUTE-NAMESPACE}:default
の構成をスキップします。
収集されたログの詳細
クラスター内の Azure Machine Learning ワークロードに関して、拡張機能コンポーネント経由でいくつかのログ (状態、メトリック、ライフ サイクルなど) が収集されます。収集されたすべてのログの詳細 (収集されたログの種類と、ログの送信先または保存場所を含む) を次の一覧に示します。
Pod | リソースの説明 | 詳細ログ情報 |
---|---|---|
amlarc-identity-controller | マネージド ID を介して、Azure BLOB または Azure Container Registry トークンの要求と更新を行います。 | 拡張機能をインストールするときに enableInference=true が設定されたときにのみ使用されます。 Azure Machine Learning service で認証するエンドポイントの ID を取得するときの状態のトレース ログが含まれています。 |
amlarc-identity-proxy | マネージド ID を介して、Azure BLOB または Azure Container Registry トークンの要求と更新を行います。 | 拡張機能をインストールするときに enableInference=true が設定されたときにのみ使用されます。 Azure Machine Learning service で認証するクラスターの ID を取得するときの状態のトレース ログが含まれています。 |
aml-operator | トレーニングジョブのライフサイクルを管理します。 | ログには、クラスター内の Azure Machine Learning トレーニング ジョブ ポッドの状態が含まれています。 |
azureml-fe-v2 | 受信した推論要求を、デプロイされたサービスにルーティングするフロントエンドコンポーネント。 | 要求 ID、開始時刻、応答コード、エラーの詳細、要求待機時間の長さなどの、要求レベルのアクセス ログ。 サービス メタデータの変更、正常な状態を実行しているサービスなどのデバッグ目的のトレース ログ。 |
gateway | ゲートウェイは、データの通信と送受信を行うために使用されます。 | Azure Machine Learning service からクラスターへの要求に関するトレース ログ。 |
healthcheck | -- | ログには、拡張機能が機能しない原因を診断するための azureml 名前空間リソース (Azure Machine Learning 拡張機能) の状態が含まれます。 |
inference-operator-controller-manager | 推論エンドポイントのライフサイクルを管理します。 | ログには、クラスター内の Azure Machine Learning 推論エンドポイントとデプロイ ポッドの状態が含まれています。 |
metrics-controller-manager | Prometheus の構成を管理します。 | CPU 使用率とメモリ使用率に関するトレーニング ジョブと推論デプロイ メトリックのアップロード状態のトレース ログ。 |
relay server | リレー サーバーが必要となるのは Arc 接続クラスターだけであり、AKS クラスターにはインストールされません。 | リレー サーバーは、Azure Relay と連携してクラウド サービスと通信します。 ログには、Azure Relay からの要求レベル情報が含まれます。 |
Azure Machine Learning ジョブがカスタム データ ストレージに接続する
永続ボリューム (PV) と永続ボリューム要求 (PVC) は Kubernetes の概念であり、ユーザーはさまざまなストレージ リソースを提供して使用できます。
- PV を作成し、例として NFS を使用します。
apiVersion: v1
kind: PersistentVolume
metadata:
name: nfs-pv
spec:
capacity:
storage: 1Gi
accessModes:
- ReadWriteMany
persistentVolumeReclaimPolicy: Retain
storageClassName: ""
nfs:
path: /share/nfs
server: 20.98.110.84
readOnly: false
- ML ワークロードを使用して、同じ Kubernetes 名前空間に PVC を作成します。
metadata
では、Azure Machine Learning が認識するようにml.azure.com/pvc: "true"
ラベルを追加し、マウント パスが設定されるようにml.azure.com/mountpath: <mount path>
注釈を追加する必要があります。
apiVersion: v1
kind: PersistentVolumeClaim
metadata:
name: nfs-pvc
namespace: default
labels:
ml.azure.com/pvc: "true"
annotations:
ml.azure.com/mountpath: "/mnt/nfs"
spec:
storageClassName: ""
accessModes:
- ReadWriteMany
resources:
requests:
storage: 1Gi
重要
- PVC からのカスタム データ ストレージをサポートするのは、コマンド ジョブまたはコンポーネント、ハイパードライブ ジョブまたはコンポーネント、バッチデプロイのみです。 > * リアルタイム オンライン エンドポイント、AutoML ジョブ、PRS ジョブは、PVC からのカスタム データ ストレージをサポートしていません。
- また、PVC と同じ Kubernetes 名前空間内のポッドのみがボリュームにマウントされます。 データ サイエンティストは、ジョブの PVC 注釈で指定された
mount path
にアクセスできます。 AutoML ジョブと Prs ジョブは PVC にアクセスできません。
サポートされている Azure Machine Learning のテイントと容認
テイントと容認は、ポッドが不適切なノードにスケジュールされないように連携する Kubernetes の概念です。
Azure Machine Learning と統合された Kubernetes クラスター (AKS および Arc Kubernetes クラスターを含む) で特定の Azure Machine Learning テイントと容認がサポートされるようになりました。これにより、ユーザーは Azure Machine Learning 専用ノードに特定の Azure Machine Learning テイントを追加して、Azure Machine Learning 以外のワークロードがこれらの専用ノードにスケジュールされないようにすることができます。
ノードに置くことができる amlarc 固有のテイントは、次のように定義されています。
テイント | キー | 値 | 効果 | 説明 |
---|---|---|---|---|
amlarc overall | ml.azure.com/amlarc | true | NoSchedule 、NoExecute または PreferNoSchedule |
拡張機能システム サービス ポッドや機械学習ワークロード ポッドを含むすべての Azure Machine Learning ワークロードでは、この amlarc overall テイントが許容されます。 |
amlarc system | ml.azure.com/amlarc-system | true | NoSchedule 、NoExecute または PreferNoSchedule |
この amlarc system テイントを許容するのは、Azure Machine Learning 拡張機能システム サービス ポッドだけです。 |
amlarc workload | ml.azure.com/amlarc-workload | true | NoSchedule 、NoExecute または PreferNoSchedule |
この amlarc workload テイントを許容するのは、機械学習ワークロード ポッドだけです。 |
amlarc resource group | ml.azure.com/resource-group | <リソース グループ名> | NoSchedule 、NoExecute または PreferNoSchedule |
特定のリソース グループから作成された機械学習ワークロード ポッドだけが、この amlarc resource group テイントを許容します。 |
amlarc workspace | ml.azure.com/workspace | <ワークスペース名> | NoSchedule 、NoExecute または PreferNoSchedule |
特定のワークスペースから作成された機械学習ワークロード ポッドだけが、この amlarc workspace テイントを許容します。 |
amlarc compute | ml.azure.com/compute | <コンピューティング名> | NoSchedule 、NoExecute または PreferNoSchedule |
特定のコンピューティング先で作成された機械学習ワークロード ポッドだけが、この amlarc compute テイントを許容します。 |
ヒント
- Azure Kubernetes Service (AKS) の場合は、「Azure Kubernetes Service (AKS) の高度なスケジューラ機能のベスト プラクティス」の例に従って、テイントをノード プールに適用できます。
- オンプレミス Kubernetes クラスターなどの Arc Kubernetes クラスターの場合は、
kubectl taint
コマンドを使用してノードにテイントを追加できます。 その他の例については、Kubernetes のドキュメントを参照してください。
ベスト プラクティス
Azure Machine Learning 専用ノードのスケジューリング要件に従って、 複数の amlarc 固有のテイントを追加して、ノードで実行できる Azure Machine Learning ワークロードを制限できます。 amlarc テイントを使用する際のベスト プラクティスを示します。
- Azure Machine Learning 以外のワークロードが Azure Machine Learning 専用ノード/ノード プールで実行されないようにするには、
aml overall
テイントをこれらのノードに追加するだけです。 - system 以外のポッドが Azure Machine Learning 専用ノード/ノード プールで実行されないようにするには、以下のテイントを追加する必要があります。
amlarc overall
テイントamlarc system
テイント
- ml 以外のワークロードが Azure Machine Learning 専用ノード/ノード プールで実行されないようにするには、以下のテイントを追加する必要があります。
amlarc overall
テイントamlarc workloads
テイント
- "ワークスペース X" から作成されていないワークロードが Azure Machine Learning 専用ノード/ノード プールで実行されないようにするには、以下のテイントを追加する必要があります。
amlarc overall
テイントamlarc resource group (has this <workspace X>)
テイントamlarc <workspace X>
テイント
- "コンピューティング先 X" によって作成されていないワークロードが Azure Machine Learning 専用ノード/ノード プールで実行されないようにするには、以下のテイントを追加する必要があります。
amlarc overall
テイントamlarc resource group (has this <workspace X>)
テイントamlarc workspace (has this <compute X>)
テイントamlarc <compute X>
テイント
HTTP または HTTPS 経由で他のイングレス コントローラーを Azure Machine Learning 拡張機能と統合する
既定の Azure Machine Learning 推論ロード バランサー azureml-fe に加えて、HTTP または HTTPS 経由で他のロード バランサーを Azure Machine Learning 拡張機能と統合することもできます。
このチュートリアルでは、Nginx イングレス コントローラーまたは Azure Application Gateway を統合する方法について説明します。
前提条件
inferenceRouterServiceType=ClusterIP
とallowInsecureConnections=True
を指定して Azure Machine Learning 拡張機能をデプロイし、サービスが HTTPS 経由で公開されるときに、Nginx イングレス コントローラーが azureml-fe に引き渡す代わりに、それ自体で TLS 終端を処理できるようにします。- Nginx イングレス コントローラーと統合するには、Nginx イングレス コントローラーを使用した Kubernetes クラスターのセットアップが必要です。
- 基本的なコントローラーの作成: 最初から始める場合は、こちらの手順を参照してください。
- Azure Application Gateway との統合には、Azure Application Gateway イングレス コントローラーを使用した Kubernetes クラスターのセットアップが必要です。
- グリーンフィールド デプロイ: 最初から始める場合は、こちらの手順を参照してください。
- ブラウンフィールド デプロイ: 既存の AKS クラスターと Application Gateway がある場合は、こちらの手順を参照してください。
- このアプリケーションで HTTPS を使用する場合は、x509 証明書とその秘密キーが必要になります。
HTTP 経由でサービスを公開する
azureml-fe を公開するには、次のイングレス リソースを使用します。
# Nginx Ingress Controller example
apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
name: azureml-fe
namespace: azureml
spec:
ingressClassName: nginx
rules:
- http:
paths:
- path: /
backend:
service:
name: azureml-fe
port:
number: 80
pathType: Prefix
このイングレスでは、azureml-fe
サービスおよび選択したデプロイが Nginx イングレス コントローラーの既定のバックエンドとして公開されます。
# Azure Application Gateway example
apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
name: azureml-fe
namespace: azureml
spec:
ingressClassName: azure-application-gateway
rules:
- http:
paths:
- path: /
backend:
service:
name: azureml-fe
port:
number: 80
pathType: Prefix
このイングレスでは、azureml-fe
サービスおよび選択したデプロイが Application Gateway の既定のバックエンドとして公開されます。
上記のイングレス リソースを ing-azureml-fe.yaml
として保存します。
次を実行して、
ing-azureml-fe.yaml
をデプロイします。kubectl apply -f ing-azureml-fe.yaml
イングレス コントローラーのログ上でデプロイの状態を確認します。
これで、
azureml-fe
アプリケーションが使用可能になりました。 次にアクセスすると確認できます。- Nginx イングレス コントローラー: Nginx イングレス コントローラーのパブリック LoadBalancer アドレス
- Azure Application Gateway: Application Gateway のパブリック アドレス
-
注意
呼び出す前に、scoring_uri の IP を Nginx イングレス コントローラーのパブリック LoadBalancer アドレスに置き換えます。
HTTPS 経由でサービスを公開する
イングレスをデプロイする前に、kubernetes シークレットを作成して、証明書と秘密キーをホストする必要があります。 次を実行して、Kubernetes シークレットを作成できます
kubectl create secret tls <ingress-secret-name> -n azureml --key <path-to-key> --cert <path-to-cert>
次のイングレスを定義します。 イングレス内で、
secretName
セクションにシークレットの名前を指定します。# Nginx Ingress Controller example apiVersion: networking.k8s.io/v1 kind: Ingress metadata: name: azureml-fe namespace: azureml spec: ingressClassName: nginx tls: - hosts: - <domain> secretName: <ingress-secret-name> rules: - host: <domain> http: paths: - path: / backend: service: name: azureml-fe port: number: 80 pathType: Prefix
# Azure Application Gateway example apiVersion: networking.k8s.io/v1 kind: Ingress metadata: name: azureml-fe namespace: azureml spec: ingressClassName: azure-application-gateway tls: - hosts: - <domain> secretName: <ingress-secret-name> rules: - host: <domain> http: paths: - path: / backend: service: name: azureml-fe port: number: 80 pathType: Prefix
Note
上記のイングレス リソースの
<domain>
、および<ingress-secret-name>
を、Nginx イングレス コントローラー/Application Gateway の LoadBalancer を指すドメイン、およびシークレットの名前に置き換えます。 ファイル名ing-azureml-fe-tls.yaml
に上記のイングレス リソースを保存します。次を実行して、ing-guestbook-tls.yaml をデプロイします
kubectl apply -f ing-azureml-fe-tls.yaml
イングレス コントローラーのログ上でデプロイの状態を確認します。
これで、HTTPS で
azureml-fe
アプリケーションが使用可能になります。 これは、Nginx イングレス コントローラーのパブリック LoadBalancer アドレスにアクセスすることで確認できます。-
注意
呼び出す前に、scoring_uri のプロトコルと IP を、Nginx イングレス コントローラーまたは Application Gateway の LoadBalancer を指す https とドメインに置き換えます。
ARM テンプレートを使用して拡張機能をデプロイする
マネージド クラスター上の拡張機能は、ARM テンプレートを使用してデプロイできます。 サンプル テンプレートは、デモ パラメーター ファイル deployextension.parameters.json とともに deployextension.json から入手できます
サンプル デプロイ テンプレートを使用するには、正しい値を使用してパラメーター ファイルを編集し、次のコマンドを実行します。
az deployment group create --name <ARM deployment name> --resource-group <resource group name> --template-file deployextension.json --parameters deployextension.parameters.json
ARM テンプレートの使用方法の詳細については、ARM テンプレートのドキュメントを参照してください
AzureML 拡張機能のリリース ノート
Note
新機能は、隔週でリリースされます。
Date | バージョン | バージョンの説明 |
---|---|---|
2024 年 9 月 26 日 | 1.1.64 | 脆弱性を修正しました。 |
2023 年 11 月 21 日 | 1.1.39 | 脆弱性を修正しました。 絞り込まれたエラー メッセージ。 Relayserver API の安定性が向上しました。 |
2023 年 11 月 1 日 | 1.1.37 | データ プレーンの使用バージョンを更新します。 |
2023 年 10 月 11 日 | 1.1.35 | 脆弱性のあるイメージの修正。 バグが修正されました。 |
2023 年 8 月 25 日 | 1.1.34 | 脆弱性のあるイメージの修正。 より詳細な ID エラーを返します。 バグが修正されました。 |
2023 年 7 月 18 日 | 1.1.29 | 新しい ID オペレーターのエラーを追加します。 バグが修正されました。 |
2023 年 6 月 4 日 | 1.1.28 | 複数のノード プールを処理するように自動スケーラーを改善します。 バグが修正されました。 |
2023 年 4 月 18 日 | 1.1.26 | バグ修正と脆弱性の修正。 |
2023 年 5 月 27 日 | 1.1.25 | Azure Machine Learning ジョブのスロットルを追加します。 SSH セットアップに失敗したときのトレーニング ジョブの早い失敗。 Prometheus のスクレイピング間隔を 30 秒に削減。 推論用のエラー メッセージの改善。 脆弱性のあるイメージの修正。 |
2023 年 5 月 7 日 | 1.1.23 | 既定のインスタンスの種類を変更して、2Gi メモリを使用します。 15s の scrape_interval を追加する scoring-fe のメトリック構成を更新します。 mdc サイドカーのリソース仕様を追加します。 脆弱性のあるイメージの修正。 バグ修正。 |
2023 年 2 月 14 日 | 1.1.21 | バグが修正されました。 |
2023 年 2 月 7 日 | 1.1.19 | 推論用のエラー応答メッセージを改善します。 既定のインスタンスの種類を更新して、2Gi メモリ制限を使用します。 ポッドの正常性、リソース クォータ、Kubernetes のバージョン、拡張機能のバージョンについてクラスターの正常性チェックを行います。 バグの修正 |
2022 年 12 月 27 日 | 1.1.17 | Fluent ビットを DaemonSet からサイドカーに移動。 MDC のサポートの追加。 エラー メッセージの改良。 クラスター モード (Windows、Linux) ジョブのサポート。 バグの修正 |
2022 年 11 月 29 日 | 1.1.16 | 新しい CRD によるインスタンスの種類の検証の追加。 許容範囲のサポート。 SVC 名の短縮。 ワークロード コア時間。 複数のバグの修正と機能強化。 |
2022 年 9 月 13 日 | 1.1.10 | バグ修正。 |
2022 年 8 月 29 日 | 1.1.9 | 正常性チェック ロジックが改善されました。 バグ修正。 |
2022 年 6 月 23 日 | 1.1.6 | バグ修正。 |
2022 年 6 月 15 日 | 1.1.5 | 新しい共通ランタイムを使用してジョブを実行するようにトレーニングが更新されました。 AKS 拡張機能の Azure Relay の使用を削除しました。 Service Bus の使用状況を拡張機能から削除しました。 セキュリティ コンテキストの使用状況が更新されました。 推論 azureml-fe を v2 に更新。 Volcano をトレーニング ジョブ スケジューラとして使用するよう更新されました。 バグ修正。 |
2021 年 10 月 14 日 | 1.0.37 | AMLArc トレーニング ジョブでの PV/PVC ボリューム マウントのサポート。 |
2021 年 9 月 16 日 | 1.0.29 | 新しいリージョンとして WestUS、CentralUS、NorthCentralUS、KoreaCentral が利用可能になりました。 ジョブ キューの拡張性。 Azure Machine Learning ワークスペース スタジオでジョブ キューの詳細を参照してください。 自動強制終了ポリシー。 ScriptRunConfig での max_run_duration_seconds のサポート。 設定値よりも時間がかかった場合、システムによって自動的に実行のキャンセルが試みられます。 クラスターの自動スケーリングのサポートに関するパフォーマンスの向上。 オンプレミスのコンテナー レジストリからの Arc エージェントと ML 拡張機能のデプロイ。 |
2021 年 8 月 24 日 | 1.0.28 | コンピューティング インスタンスの種類がジョブ YAML でサポートされています。 AMLArc コンピューティングにマネージド ID を割り当てます。 |
2021 年 8 月 10 日 | 1.0.20 | 新しい Kubernetes ディストリビューションのサポート、K3S - Lightweight Kubernetes。 Azure Machine Learning 拡張機能を AKS クラスターに、Azure Arc 経由で接続することなくデプロイします。Python SDK を介した自動機械学習 (AutoML)。 2.0 CLI を使用して、Kubernetes クラスターを Azure Machine Learning ワークスペースにアタッチします。 Azure Machine Learning 拡張機能コンポーネントの CPU/メモリ リソース使用率を最適化します。 |
2021 年 7 月 2 日 | 1.0.13 | 新しい Kubernetes ディストリビューションでは、OpenShift Kubernetes と GKE (Google Kubernetes エンジン) がサポートされます。 自動スケールがサポートされます。 ユーザー管理 Kubernetes クラスターで自動スケールが有効になっている場合、クラスターはアクティブな実行とデプロイの量に応じて自動的にスケールアウトまたはスケールインされます。 ジョブ ランチャーのパフォーマンス向上により、ジョブの実行時間が大幅に短縮されました。 |