Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Diese Seite beschreibt die Databricks-Runtime für Maschinelles Lernen und enthält Anleitungen zum Erstellen einer klassischen Computeressource, die sie verwendet.
Was ist Databricks Runtime für maschinelles Lernen?
Databricks Runtime for Machine Learning (Databricks Runtime ML) automatisiert die Erstellung einer Computeressource mit vordefinierter Machine Learning- und Deep Learning-Infrastruktur, einschließlich der am häufigsten verwendeten ML- und DL-Bibliotheken.
In Databricks Runtime ML enthaltene Bibliotheken
Databricks Runtime ML enthält eine Vielzahl von gängigen ML-Bibliotheken. Bei jedem Release werden die Bibliotheken mit neuen Features und Fixes aktualisiert.
Eine Teilmenge der unterstützten Bibliotheken wurde von Databricks als Bibliotheken der obersten Ebene festgelegt. Für diese Bibliotheken bietet Databricks einen schnelleren Aktualisierungsrhythmus, bei dem mit jeder Runtime-Version auf die aktuellen Paketversionen aktualisiert wird (sofern es keine Abhängigkeitskonflikte gibt). Databricks bietet außerdem erweiterte Unterstützung, Tests und eingebettete Optimierungen für Bibliotheken der obersten Ebene. Bibliotheken der obersten Ebene werden nur mit Hauptversionen hinzugefügt oder entfernt.
- Eine vollständige Liste der Bibliotheken der obersten Ebene und anderer bereitgestellter Bibliotheken finden Sie in den Versionshinweisen für Databricks Runtime ML.
- Informationen dazu, wie oft Bibliotheken aktualisiert werden und wann Bibliotheken veraltet sind, finden Sie unter Databricks Runtime ML-Wartungsrichtlinie.
Sie können zusätzliche Bibliotheken installieren, um eine benutzerdefinierte Umgebung für Ihr Notizbuch oder Ihre Computeressource zu erstellen.
- Um eine Bibliothek für alle Notizbücher verfügbar zu machen, die auf einer Rechenressource ausgeführt werden, erstellen Sie eine computebezogene Bibliothek. Sie können auch ein Init-Skript verwenden, um Bibliotheken während der Berechnungserstellung zu installieren.
- Verwenden Sie notebookspezifische Python-Bibliotheken, um eine Bibliothek zu installieren, die nur für eine bestimmte Notebooksitzung verfügbar ist.
Erstellen einer Computing-Ressource mit Databricks Runtime für maschinelles Lernen
Um eine Computeressource zu erstellen, die Databricks Runtime für ML verwendet, aktivieren Sie das Kontrollkästchen "Maschinelles Lernen " in der Berechnungs-UI. Dadurch wird der Zugriffsmodus automatisch auf "Dediziert " mit Ihrem Konto als dedizierter Benutzer festgelegt. Sie können die Rechenressource einem anderen Benutzer oder einer anderen Gruppe im Abschnitt „Erweitert“ der Benutzeroberfläche zur Erstellung von Rechenressourcen manuell zuweisen.
Wählen Sie für GPU-basierte Compute im Dropdownmenü " Worker type " einen GPU-fähigen Instanztyp aus. Die vollständige Liste der unterstützten GPU-Typen finden Sie unter "Unterstützte Instanztypen".
Photon und Databricks Runtime ML
Wenn Sie eine Rechenressource erstellen, die Databricks Runtime 15.2 ML oder höher ausführt, können Sie Photon aktivieren. Photon verbessert die Leistung von Anwendungen mit Spark SQL, Spark DataFrames, Feature Engineering, GraphFrames und xgboost4j. Es ist nicht zu erwarten, dass die Leistung von Anwendungen mit Spark-RDDs, pandas-UDFs und nicht-JVM-Sprachen wie Python verbessert wird. Daher profitieren Python-Pakete wie XGBoost, PyTorch und TensorFlow nicht von den Verbesserung durch Photon.
Spark RDD-APIs und Spark MLlib haben eingeschränkte Kompatibilität mit Photon. Bei der Verarbeitung großer Datasets mit Spark RDD oder Spark MLlib können Spark-Speicherprobleme auftreten. Siehe Spark-Speicherprobleme.
Berechnungszugriffsmodus für Databricks Runtime ML
Um auf Daten im Unity-Katalog auf einer Computeressource zuzugreifen, die Databricks Runtime ML ausführt, müssen Sie den Zugriffsmodus auf "Dedicated" festlegen. Der Zugriffsmodus wird automatisch in der Berechnungs-UI festgelegt, wenn Sie das Kontrollkästchen "Maschinelles Lernen " aktivieren.
Wenn eine Computeressource über den Modus "Dedizierter Zugriff" verfügt, kann die Ressource einem einzelnen Benutzer oder einer Gruppe zugewiesen werden. Wenn sie einer Gruppe zugewiesen ist, werden die Berechtigungen des Benutzers automatisch auf die Berechtigungen der Gruppe herabgesetzt, sodass der Benutzer die Ressource sicher für andere Mitglieder der Gruppe freigeben kann.
Bei Verwendung des dedizierten Zugriffsmodus sind die folgenden Features nur auf Databricks Runtime 15.4 LTS ML und höher verfügbar:
- Feinkörnige Zugriffssteuerung.
- Abfragen von Tabellen, die mit Lakeflow Spark Declarative Pipelines erstellt wurden, einschließlich Streamingtabellen und materialisierten Ansichten.
Modelle trainieren
Die folgenden Ressourcen zeigen Ihnen, wie Sie maschinelles Lernen und KI-Modelle auf Mosaik AI und Databricks Runtime for Machine Learning trainieren.
Mosaik AI Model Training optimiert und vereint den Prozess der Schulung und Bereitstellung herkömmlicher ML-Modelle über AutoML- und Foundation Model Fine-Tuning-Workloads.
Automatisiertes maschinelles Lernen (AutoML)
AutoML vereinfacht den Prozess der Anwendung des maschinellen Lernens auf Ihre Datasets, indem automatisch der beste Algorithmus und die Hyperparameterkonfiguration gefunden werden. AutoML bietet sowohl eine No-Code-UI als auch eine Python-API.
Optimierung von Basismodellen
Mit Foundation Model Fine-Tuning (jetzt Teil der Mosaik AI Model Training) auf Azure Databricks können Sie große Sprachmodelle (LLMs) mithilfe Ihrer eigenen Daten anpassen. Dieser Prozess umfasst eine Optimierung des Trainings eines bereits vorhandenen Foundation Models. Dies führt dazu, dass im Vergleich zum Training eines Modells von Grund auf erheblich weniger Daten, Zeit und Computeressourcen erforderlich sind. Zu den wichtigsten Features gehören:
- Feinabstimmung der Anweisung: Passen Sie Ihr Modell an neue Aufgaben an, indem Sie sich mit strukturierten Prompt-Response-Daten ausbilden.
- Fortlaufendes Vorabtraining: Verbessern Sie Ihr Modell mit zusätzlichen Textdaten, um neue Kenntnisse hinzuzufügen oder sich auf einen bestimmten Themenbereich zu konzentrieren.
- Chatvervollständigung: Trainieren Sie Ihr Modell mit Chatprotokollen, um die Konversationsfähigkeiten zu verbessern.
Beispiele für Open Source-Bibliotheken
Sehen Sie sich Trainingsbeispiele für maschinelles Lernen aus einer Vielzahl von Open Source-Learning-Bibliotheken an, darunter Beispiele für die Hyperparameteroptimierung mit Optuna und Hyperopt.
das Deep Learning
Hier finden Sie Beispiele und bewährte Methoden für verteilte Deep Learning-Schulungen zum Entwickeln und Optimieren von Deep Learning-Modellen in Azure Databricks.See examples and best practices for distributed deep learning training to develop and fine-tune deep learning models on Azure Databricks.
Empfehlungssystem
Erfahren Sie, wie Sie Deep-Learning-basierte Empfehlungsmodelle für Azure Databricks trainieren. Im Vergleich zu herkömmlichen Empfehlungsmodellen können Deep Learning-Modelle qualitativ höherwertige Ergebnisse erzielen und auf größere Datenmengen skaliert werden.