Wat is AutoML?
Databricks AutoML vereenvoudigt het proces van het toepassen van machine learning op uw gegevenssets door automatisch het beste algoritme en de configuratie van hyperparameters voor u te vinden.
Geef uw gegevensset op en geef het type machine learning-probleem op. AutoML doet het volgende:
- Schoont uw gegevens op en bereidt deze voor.
- Organiseert gedistribueerde modeltraining en afstemming van hyperparameters voor meerdere algoritmen.
- Hiermee vindt u het beste model met behulp van opensource-evaluatiealgoritmen van scikit-learn, xgboost, LightGBM, Prophet en ARIMA.
- Geeft de resultaten weer. AutoML genereert ook broncodenotitieblokken voor elke proefversie, zodat u de code indien nodig kunt bekijken, reproduceren en wijzigen.
Ga aan de slag met AutoML-experimenten via een gebruikersinterface met weinig code of de Python-API.
Eisen
- Databricks Runtime 9.1 ML of hoger. Voor de algemene beschikbaarheidsversie (GA) databricks Runtime 10.4 LTS ML of hoger.
- Voor tijdreeksprognoses, Databricks Runtime 10.0 ML of hoger.
- Met Databricks Runtime 9.1 LTS ML en hoger is AutoML afhankelijk van het
databricks-automl-runtime
pakket, dat onderdelen bevat die nuttig zijn buiten AutoML en helpt ook de notebooks te vereenvoudigen die worden gegenereerd door AutoML-training.databricks-automl-runtime
is beschikbaar op PyPI.
- Er moeten geen extra bibliotheken worden geïnstalleerd die vooraf zijn geïnstalleerd in Databricks Runtime voor Machine Learning.
- Wijzigingen (verwijdering, upgrades of downgrades) naar bestaande bibliotheekversies leiden tot uitvoeringsfouten vanwege incompatibiliteit.
- AutoML is niet compatibel met clusters in de gedeelde toegangsmodus.
- Als u Unity Catalog wilt gebruiken met AutoML, moet de clustertoegangsmodus één gebruiker zijn en moet u de aangewezen individuele gebruiker van het cluster zijn.
- Als u toegang wilt krijgen tot bestanden in uw werkruimte, moet u netwerkpoorten 1017 en 1021 hebben geopend voor AutoML-experimenten. Als u deze poorten wilt openen of wilt bevestigen dat ze zijn geopend, controleert u de configuratie- en beveiligingsgroepsregels van uw cloud-VPN of neemt u contact op met uw lokale cloudbeheerder. Zie Een werkruimte maken voor meer informatie over de configuratie en implementatie van de werkruimte.
AutoML-algoritmen
Databricks AutoML traint en evalueert modellen op basis van de algoritmen in de volgende tabel.
Notitie
Voor classificatie- en regressiemodellen zijn de beslissingsstructuur, willekeurige forests, logistieke regressie en lineaire regressie met stochastische gradiëntafnamealgoritmen gebaseerd op scikit-learn.
Classificatiemodellen | Regressiemodellen | Prognosemodellen |
---|---|---|
Beslissingsstructuren | Beslissingsstructuren | Profeet |
Willekeurige forests | Willekeurige forests | Auto-ARIMA (beschikbaar in Databricks Runtime 10.3 ML en hoger.) |
Logistieke regressie | Lineaire regressie met stochastische gradiëntafname | |
XGBoost | XGBoost | |
LightGBM | LightGBM |
Generatie van proefnotitieblok
AutoML genereert notebooks van de broncode achter proefversies, zodat u de code indien nodig kunt bekijken, reproduceren en wijzigen.
Voor prognoseexperimenten worden door AutoML gegenereerde notebooks automatisch geïmporteerd in uw werkruimte voor alle proefversies van uw experiment.
Voor classificatie- en regressieexperimenten worden door AutoML gegenereerde notebooks voor gegevensverkenning en de beste proefversie in uw experiment automatisch geïmporteerd in uw werkruimte. Gegenereerde notebooks voor andere experimenten worden opgeslagen als MLflow-artefacten in DBFS in plaats van automatisch geïmporteerd in uw werkruimte. Voor alle proefversies naast de beste proefversie zijn de notebook_path
en notebook_url
in de TrialInfo
Python-API niet ingesteld. Als u deze notebooks wilt gebruiken, kunt u deze handmatig importeren in uw werkruimte met de gebruikersinterface van het AutoML-experiment of de databricks.automl.import_notebook
Python-API.
Als u alleen het notebook voor gegevensverkenning of het beste proefnotitieblok gebruikt dat is gegenereerd door AutoML, bevat de kolom Bron in de gebruikersinterface van het AutoML-experiment de koppeling naar het gegenereerde notebook voor de beste proefversie.
Als u andere gegenereerde notebooks gebruikt in de gebruikersinterface van het AutoML-experiment, worden deze niet automatisch geïmporteerd in de werkruimte. U vindt de notebooks door te klikken op elke MLflow-uitvoering. Het IPython-notebook wordt opgeslagen in de sectie Artefacten van de uitvoeringspagina. U kunt dit notitieblok downloaden en importeren in de werkruimte als het downloaden van artefacten is ingeschakeld door uw werkruimtebeheerders.
Shapley-waarden (SHAP) voor modeltoelichtendheid
Notitie
Voor MLR 11.1 en lager worden SHAP-plots niet gegenereerd als de gegevensset een datetime
kolom bevat.
De notebooks die door AutoML-regressie en classificatie worden geproduceerd, bevatten code voor het berekenen van Shapley-waarden. Shapley-waarden zijn gebaseerd op speltheorie en schatten het belang van elke functie in de voorspellingen van een model.
AutoML-notebooks berekenen Shapley-waarden met behulp van het SHAP-pakket. Omdat deze berekeningen zeer geheugenintensief zijn, worden de berekeningen niet standaard uitgevoerd.
Shapley-waarden berekenen en weergeven:
- Ga naar de sectie Functiebelang in een door AutoML gegenereerd proefnotitieblok.
- Instellen
shap_enabled = True
. - Voer het notebook opnieuw uit.
Volgende stappen
Feedback
https://aka.ms/ContentUserFeedback.
Binnenkort beschikbaar: In de loop van 2024 zullen we GitHub-problemen geleidelijk uitfaseren als het feedbackmechanisme voor inhoud en deze vervangen door een nieuw feedbacksysteem. Zie voor meer informatie:Feedback verzenden en weergeven voor