Implementación de un modelo de IA en Azure Kubernetes Service (AKS) con el operador de cadena de herramientas de IA (versión preliminar)

Artigo
11/22/2024

El operador de cadena de herramientas de IA (KAITO) es un complemento administrado para AKS que simplifica la experiencia de ejecución de modelos de IA OSS en los clústeres de AKS. El operador de cadena de herramientas de IA aprovisiona automáticamente los nodos de GPU necesarios y configura el servidor de inferencia asociado como servidor de punto de conexión para los modelos de IA. El uso de este complemento reduce el tiempo de incorporación y le permite centrarse en el uso y el desarrollo del modelo de IA en lugar de en la configuración de la infraestructura.

En este artículo se muestra cómo habilitar el complemento del operador de cadena de herramientas de IA e implementar un modelo de IA en AKS.

Importante

Las características en versión preliminar de AKS están disponibles como opción de participación y autoservicio. Las versiones preliminares se proporcionan "tal cual" y "como están disponibles", y están excluidas de los Acuerdos de nivel de servicio y garantía limitada. Las versiones preliminares de AKS reciben cobertura parcial del soporte al cliente en la medida de lo posible. Por lo tanto, estas características no están diseñadas para su uso en producción. Para más información, consulte los siguientes artículos de soporte:

Antes de empezar

En este artículo se presupone un conocimiento básico de los conceptos de Kubernetes. Para más información, vea Conceptos básicos de Kubernetes para AKS.
Para obtener todas las imágenes de inferencia de modelos hospedadas y la configuración de infraestructura recomendada, consulte Repositorio de GitHub de KAITO.
El complemento del operador de cadena de herramientas de IA admite actualmente la versión 0.1.0 de KAITO. Téngalo en cuenta al elegir el modelo en el repositorio de modelos de KAITO.

Requisitos previos

Si no tiene una suscripción a Azure, cree una cuenta gratuita antes de empezar.
- Si tiene varias suscripciones de Azure, asegúrese de seleccionar la suscripción correcta en la que se crearán los recursos y se cobrarán mediante el comando az account set.
  
  Nota:
  
  La suscripción que use debe tener cuota de máquina virtual de GPU para la implementación del modelo que elija.
CLI de Azure versión 2.47.0 o posterior instalada y configurada. Ejecute az --version para encontrar la versión. Si necesita instalarla o actualizarla, vea Instalación de la CLI de Azure.
El cliente de línea de comandos de Kubernetes, kubectl, instalado y configurado. Para más información, vea Instalación de kubectl.
Instalar la extensión de la versión preliminar de AKS de la CLI de Azure.
Registre la marca de características del operador de cadena de herramientas de IA.

Instalación de la extensión de versión preliminar de la CLI de Azure

Instale la extensión de versión preliminar de la CLI de Azure mediante el comando az extension add.
```
az extension add --name aks-preview
```
Actualice la extensión para asegurarse de que tiene la versión más reciente mediante el comando az extension update .
```
az extension update --name aks-preview
```

Registro de la marca de características del operador de cadena de herramientas de IA

Registre la marca de característica AIToolchainOperatorPreview mediante el comando az feature register.
```
az feature register --namespace "Microsoft.ContainerService" --name "AIToolchainOperatorPreview"
```
El proceso de registro tarda unos minutos en completarse.

Compruebe el registro mediante el comando az feature show.

az feature show --namespace "Microsoft.ContainerService" --name "AIToolchainOperatorPreview"

Exportación de variables de entorno

Para simplificar los pasos de configuración de este artículo, puede definir variables de entorno mediante los comandos siguientes. Asegúrese de reemplazar los valores del marcador de posición por otros propios.
```
export AZURE_SUBSCRIPTION_ID="mySubscriptionID"
export AZURE_RESOURCE_GROUP="myResourceGroup"
export AZURE_LOCATION="myLocation"
export CLUSTER_NAME="myClusterName"
```

Habilitación del complemento de operador de cadena de herramientas de IA en un clúster de AKS

En las secciones siguientes se describe cómo crear un clúster de AKS con el complemento del operador de cadena de herramientas de IA habilitado e implementar un modelo de IA hospedado predeterminado.

Creación de un clúster de AKS con el complemento del operador de cadena de herramientas de IA habilitado

Cree un grupo de recursos de Azure con el comando az group create.

az group create --name ${AZURE_RESOURCE_GROUP} --location ${AZURE_LOCATION}

Cree un clúster de AKS con el complemento del operador de cadena de herramientas de IA habilitado mediante el comando az aks create con las marcas --enable-ai-toolchain-operator y --enable-oidc-issuer.
```
az aks create --location ${AZURE_LOCATION} \
    --resource-group ${AZURE_RESOURCE_GROUP} \
    --name ${CLUSTER_NAME} \
    --enable-oidc-issuer \
    --enable-ai-toolchain-operator \
    --generate-ssh-keys
```
Nota:

AKS crea una identidad administrada una vez que habilite el complemento de operador de cadena de herramientas de IA. La identidad administrada se usa para crear grupos de nodos de GPU en el clúster de AKS administrado. Es necesario establecer los permisos adecuados para ello manualmente siguiendo los pasos introducidos en las secciones siguientes.

En un clúster de AKS existente, puede habilitar el complemento del operador de cadena de herramientas de IA mediante el comando az aks update.

az aks update --name ${CLUSTER_NAME} \
        --resource-group ${AZURE_RESOURCE_GROUP} \
        --enable-oidc-issuer \
        --enable-ai-toolchain-operator

Conexión al clúster

Configure kubectl para conectarse al clúster mediante el comando az aks get-credentials.

az aks get-credentials --resource-group ${AZURE_RESOURCE_GROUP} --name ${CLUSTER_NAME}

Compruebe la conexión al clúster con el comando kubectl get.
```
kubectl get nodes
```

Exportación de variables de entorno

Exporte variables de entorno para el grupo de recursos de MC, la identidad de identificador de entidad de seguridad y la identidad KAITO mediante los siguientes comandos:

export MC_RESOURCE_GROUP=$(az aks show --resource-group ${AZURE_RESOURCE_GROUP} \
    --name ${CLUSTER_NAME} \
    --query nodeResourceGroup \
    -o tsv)
export PRINCIPAL_ID=$(az identity show --name "ai-toolchain-operator-${CLUSTER_NAME}" \
    --resource-group "${MC_RESOURCE_GROUP}" \
    --query 'principalId' \
    -o tsv)
export KAITO_IDENTITY_NAME="ai-toolchain-operator-${CLUSTER_NAME}"

Obtención del emisor de OpenID Connect (OIDC) de AKS

Obtenga la dirección URL del emisor de OIDC de AKS y expórtela como una variable de entorno:

export AKS_OIDC_ISSUER=$(az aks show --resource-group "${AZURE_RESOURCE_GROUP}" \
    --name "${CLUSTER_NAME}" \
    --query "oidcIssuerProfile.issuerUrl" \
    -o tsv)

Creación de una asignación de roles para la entidad de servicio

Cree una nueva asignación de roles para la entidad de servicio mediante el comando az role assignment create.

az role assignment create --role "Contributor" \
    --assignee "${PRINCIPAL_ID}" \
    --scope "/subscriptions/${AZURE_SUBSCRIPTION_ID}/resourcegroups/${AZURE_RESOURCE_GROUP}"

Establecimiento de una credencial de identidad federada

Cree la credencial de identidad federada entre la identidad administrada, el emisor de OIDC de AKS y el sujeto mediante el comando az identity federated-credential create.
```
az identity federated-credential create --name "kaito-federated-identity" \
    --identity-name "${KAITO_IDENTITY_NAME}" \
    -g "${MC_RESOURCE_GROUP}" \
    --issuer "${AKS_OIDC_ISSUER}" \
    --subject system:serviceaccount:"kube-system:kaito-gpu-provisioner" \
    --audience api://AzureADTokenExchange
```
Nota:

Antes de completar este paso, el pod del controlador de gpu-provisioner permanecerá en estado de bucle de bloqueo. Una vez creada la credencial federada, el pod de controlador de gpu-provisioner alcanzará un estado de ejecución y podrá verificar que la implementación se está ejecutando en los siguientes pasos.

Comprobación de que la implementación se está ejecutando

Reinicie la implementación del aprovisionamiento de GPU KAITO en los pods mediante el comando kubectl rollout restart:
```
kubectl rollout restart deployment/kaito-gpu-provisioner -n kube-system
```
Compruebe que la implementación se está ejecutando con el comando kubectl get:
```
kubectl get deployment -n kube-system | grep kaito
```

Implementación de un modelo de IA hospedado predeterminado

Implemente el modelo Falcon 7B-instruct desde el repositorio de modelos de KAITO mediante el comando kubectl apply.

kubectl apply -f https://raw.githubusercontent.com/Azure/kaito/main/examples/inference/kaito_workspace_falcon_7b-instruct.yaml

Realice el seguimiento de los cambios de recursos activos en el área de trabajo mediante el comando kubectl get.
```
kubectl get workspace workspace-falcon-7b-instruct -w
```
Nota:

A medida que realiza un seguimiento de los cambios de recursos activos en el área de trabajo, tenga en cuenta que la preparación de la máquina puede tardar hasta 10 minutos y la preparación del área de trabajo hasta 20 minutos.

Compruebe el servicio y obtenga la dirección IP del servicio mediante el comando kubectl get svc.

export SERVICE_IP=$(kubectl get svc workspace-falcon-7b-instruct -o jsonpath='{.spec.clusterIP}')

Ejecute el modelo Falcon 7B-instruct con la entrada de ejemplo que prefiera mediante el siguiente comando curl:

kubectl run -it --rm --restart=Never curl --image=curlimages/curl -- curl -X POST http://$SERVICE_IP/chat -H "accept: application/json" -H "Content-Type: application/json" -d "{\"prompt\":\"YOUR QUESTION HERE\"}"

Limpieza de recursos

Si ya no necesita estos recursos, puede eliminarlos para evitar incurrir en cargos adicionales de proceso de Azure.

Elimine el área de trabajo de KAITO y sus recursos asociados mediante el comando kubectl delete workspace.
```
kubectl delete workspace workspace-falcon-7b-instruct
```

Pasos siguientes

Para más opciones de implementación de modelos, consulte el repositorio de GitHub de KAITO principal.

Explore MLOps para flujos de trabajo de IA y aprendizaje automático en AKS
Obtenga información sobre Procedimientos recomendados de MLOps para sus canalizaciones de IA en AKS
Aprenda a implementar cargas de trabajo de GPU en AKS

Compartir por

Implementación de un modelo de IA en Azure Kubernetes Service (AKS) con el operador de cadena de herramientas de IA (versión preliminar)

Antes de empezar

Requisitos previos

Instalación de la extensión de versión preliminar de la CLI de Azure

Registro de la marca de características del operador de cadena de herramientas de IA

Exportación de variables de entorno

Habilitación del complemento de operador de cadena de herramientas de IA en un clúster de AKS

Creación de un clúster de AKS con el complemento del operador de cadena de herramientas de IA habilitado

Conexión al clúster

Exportación de variables de entorno

Obtención del emisor de OpenID Connect (OIDC) de AKS

Creación de una asignación de roles para la entidad de servicio

Establecimiento de una credencial de identidad federada

Comprobación de que la implementación se está ejecutando

Implementación de un modelo de IA hospedado predeterminado

Limpieza de recursos

Pasos siguientes

Recursos adicionais