Partage via


Environnement d'exécution IA

Important

AI Runtime pour les tâches à nœud unique est disponible en préversion publique. L’API d’entraînement distribuée pour les charges de travail multi-GPU reste en version bêta.

Vue d’ensemble du runtime IA

AI Runtime est une offre de calcul chez Databricks destinée aux charges de travail d’apprentissage profond et offre une prise en charge gpu pour Databricks Serverless. Vous pouvez utiliser AI Runtime pour entraîner et affiner des modèles personnalisés à l’aide de vos frameworks favoris et obtenir une efficacité, des performances et une qualité de pointe. Pour obtenir une vue d’ensemble de la façon dont le calcul serverless s’intègre à l’architecture Databricks, consultez l’architecture de l’espace de travail serverless.

Fonctionnalités clés

  • Infrastructure GPU entièrement managée : accès serverless, flexible aux GPU et aucune configuration de cluster, sélection de pilotes ou stratégies de mise à l’échelle automatique à gérer.
  • Runtime dédié au Deep Learning : choisissez un environnement de base par défaut minimal pour une flexibilité maximale sur les dépendances ou un environnement IA complet préchargé avec des frameworks ML populaires.
  • Intégré en mode natif dans les notebooks, les travaux, le catalogue Unity et MLflow pour un développement, un accès aux données et un suivi des expériences transparents.

Options matérielles

Accélérateur Idéal pour Multi-GPU
A10 Petites à moyennes tâches ML et Deep Learning, telles que les modèles ML classiques ou le réglage précis de modèles de langage plus petits Non
H100 Charges de travail IA à grande échelle, notamment l’apprentissage ou l’optimisation des modèles massifs ou l’exécution de tâches avancées d’apprentissage profond Oui (8 GPU)

Databricks recommande AI Runtime pour tous les cas d’usage d’entraînement de modèle personnalisé qui impliquent l’apprentissage profond, les charges de travail classiques à grande échelle ou les GPU.

Par exemple:

  • Réglage précis LLM (LoRA, QLoRA, réglage complet)
  • Vision par ordinateur (détection d’objets, classification d’images)
  • Systèmes de recommandation basés sur le Deep Learning
  • Apprentissage par renforcement
  • Prévision de séries chronologiques basées sur le Deep Learning

Exigences

  • Un espace de travail dans l’une des régions prises en charge par Azure suivantes :
    • centralus
    • eastus
    • eastus2
    • northcentralus
    • westcentralus
    • westus
    • westus3

Limites

  • AI Runtime prend uniquement en charge les accélérateurs A10 et H100.
  • AI Runtime n’est pas pris en charge pour les espaces de travail ayant un profil de sécurité conforme (tels que HIPAA ou PCI). Le traitement des données réglementées n’est pas pris en charge.
  • L’ajout de dépendances à l’aide du panneau Environnements n’est pas pris en charge pour les travaux planifiés d’AI Runtime. Installez les dépendances programmatiquement dans votre bloc-notes à la place en utilisant %pip install.
  • Pour les travaux planifiés sur AI Runtime, le comportement de récupération automatique pour les versions de package incompatibles associées à votre notebook n’est pas pris en charge.
  • Le runtime maximal d’une charge de travail est de sept jours. Pour les tâches d'entraînement de modèle qui dépassent cette limite, implémentez la technique de checkpointing et redémarrez la tâche une fois la durée d'exécution maximale atteinte.
  • AI Runtime fournit un accès à la demande aux ressources GPU. Bien que cela entraîne un accès facile et flexible aux GPU, il peut y avoir des périodes où la capacité est limitée ou indisponible dans votre région.
  • AI Runtime tire parti des GPU interrégions dans certains cas pendant des moments de forte demande. Il peut y avoir des coûts de sortie associés à cette utilisation.

Se connecter à AI Runtime

Vous pouvez vous connecter à AI Runtime de manière interactive à partir de notebooks, planifier des notebooks en tant que travaux périodiques ou créer des travaux par programmation à l’aide de l’API Travaux et des bundles de ressources Databricks. Pour obtenir des instructions pas à pas, consultez Se connecter au runtime AI.

Configurer l’environnement

AI Runtime offre deux environnements Python managés : un environnement de base par défaut minimal et un environnement d’IA Databricks complet préchargé avec des frameworks ML populaires tels que PyTorch et Transformers. Pour plus d’informations sur le choix d’un environnement, le comportement de mise en cache, l’importation de modules personnalisés et les limitations connues, consultez Configurer votre environnement.

Importer des données

Comprendre le fonctionnement de l’accès aux données sur AI Runtime est essentiel pour une expérience fluide. Pour plus d’informations, consultez Charger des données sur AI Runtime.

Formation distribuée

Important

Cette fonctionnalité est en version bêta. Les administrateurs d’espace de travail peuvent contrôler l’accès à cette fonctionnalité à partir de la page Aperçus . Consultez Gérer les préversions d’Azure Databricks.

AI Runtime prend en charge l’entraînement distribué sur plusieurs GPU sur le nœud unique auquel votre notebook est connecté. En utilisant le décorateur @distributed de l'API serverless_gpu Python (bêta), vous pouvez lancer des charges de travail sur plusieurs GPU avec PyTorch DDP, FSDP ou DeepSpeed, tout en ayant une configuration minimale. Pour plus d’informations, consultez la charge de travail multi-GPU.

Suivi et observabilité des expériences

Pour l’intégration de MLflow, l’affichage des journaux et la gestion des points de contrôle du modèle, consultez Suivi des expériences et observabilité.

Code Genie pour l’apprentissage profond

Genie Code prend en charge les charges de travail d’apprentissage profond sur AI Runtime. Il peut vous aider à générer du code d’entraînement, à résoudre les erreurs d’installation de bibliothèque, à suggérer des optimisations et à déboguer des problèmes courants. Consultez Utiliser le code Genie pour la science des données.

Guides

Pour la migration à partir de charges de travail classiques, des notebooks d'exemple et résolution de problèmes, consultez les guides utilisateur pour AI Runtime.