Delen via


Wat is AutoML?

Databricks AutoML vereenvoudigt het proces van het toepassen van machine learning op uw gegevenssets door automatisch het beste algoritme en de configuratie van hyperparameters voor u te vinden.

Geef uw gegevensset op en geef het type machine learning-probleem op. AutoML doet het volgende:

  1. Schoont uw gegevens op en bereidt deze voor.
  2. Organiseert gedistribueerde modeltraining en afstemming van hyperparameters voor meerdere algoritmen.
  3. Hiermee vindt u het beste model met behulp van opensource-evaluatiealgoritmen van scikit-learn, xgboost, LightGBM, Prophet en ARIMA.
  4. Geeft de resultaten weer. AutoML genereert ook broncodenotitieblokken voor elke proefversie, zodat u de code indien nodig kunt bekijken, reproduceren en wijzigen.

Ga aan de slag met AutoML-experimenten via een gebruikersinterface met weinig code of de Python-API.

Eisen

  • Databricks Runtime 9.1 ML of hoger. Voor de algemene beschikbaarheidsversie (GA) databricks Runtime 10.4 LTS ML of hoger.
    • Voor tijdreeksprognoses, Databricks Runtime 10.0 ML of hoger.
    • Met Databricks Runtime 9.1 LTS ML en hoger is AutoML afhankelijk van het databricks-automl-runtime pakket, dat onderdelen bevat die nuttig zijn buiten AutoML en helpt ook de notebooks te vereenvoudigen die worden gegenereerd door AutoML-training. databricks-automl-runtime is beschikbaar op PyPI.
  • Er moeten geen extra bibliotheken worden geïnstalleerd die vooraf zijn geïnstalleerd in Databricks Runtime voor Machine Learning.
    • Wijzigingen (verwijdering, upgrades of downgrades) naar bestaande bibliotheekversies leiden tot uitvoeringsfouten vanwege incompatibiliteit.
  • AutoML is niet compatibel met clusters in de gedeelde toegangsmodus.
  • Als u Unity Catalog wilt gebruiken met AutoML, moet de clustertoegangsmodus één gebruiker zijn en moet u de aangewezen individuele gebruiker van het cluster zijn.
  • Als u toegang wilt krijgen tot bestanden in uw werkruimte, moet u netwerkpoorten 1017 en 1021 hebben geopend voor AutoML-experimenten. Als u deze poorten wilt openen of wilt bevestigen dat ze zijn geopend, controleert u de configuratie- en beveiligingsgroepsregels van uw cloud-VPN of neemt u contact op met uw lokale cloudbeheerder. Zie Een werkruimte maken voor meer informatie over de configuratie en implementatie van de werkruimte.

AutoML-algoritmen

Databricks AutoML traint en evalueert modellen op basis van de algoritmen in de volgende tabel.

Notitie

Voor classificatie- en regressiemodellen zijn de beslissingsstructuur, willekeurige forests, logistieke regressie en lineaire regressie met stochastische gradiëntafnamealgoritmen gebaseerd op scikit-learn.

Classificatiemodellen Regressiemodellen Prognosemodellen
Beslissingsstructuren Beslissingsstructuren Profeet
Willekeurige forests Willekeurige forests Auto-ARIMA (beschikbaar in Databricks Runtime 10.3 ML en hoger.)
Logistieke regressie Lineaire regressie met stochastische gradiëntafname
XGBoost XGBoost
LightGBM LightGBM

Generatie van proefnotitieblok

AutoML genereert notebooks van de broncode achter proefversies, zodat u de code indien nodig kunt bekijken, reproduceren en wijzigen.

Voor prognoseexperimenten worden door AutoML gegenereerde notebooks automatisch geïmporteerd in uw werkruimte voor alle proefversies van uw experiment.

Voor classificatie- en regressieexperimenten worden door AutoML gegenereerde notebooks voor gegevensverkenning en de beste proefversie in uw experiment automatisch geïmporteerd in uw werkruimte. Gegenereerde notebooks voor andere experimenten worden opgeslagen als MLflow-artefacten in DBFS in plaats van automatisch geïmporteerd in uw werkruimte. Voor alle proefversies naast de beste proefversie zijn de notebook_path en notebook_url in de TrialInfo Python-API niet ingesteld. Als u deze notebooks wilt gebruiken, kunt u deze handmatig importeren in uw werkruimte met de gebruikersinterface van het AutoML-experiment of de databricks.automl.import_notebook Python-API.

Als u alleen het notebook voor gegevensverkenning of het beste proefnotitieblok gebruikt dat is gegenereerd door AutoML, bevat de kolom Bron in de gebruikersinterface van het AutoML-experiment de koppeling naar het gegenereerde notebook voor de beste proefversie.

Als u andere gegenereerde notebooks gebruikt in de gebruikersinterface van het AutoML-experiment, worden deze niet automatisch geïmporteerd in de werkruimte. U vindt de notebooks door te klikken op elke MLflow-uitvoering. Het IPython-notebook wordt opgeslagen in de sectie Artefacten van de uitvoeringspagina. U kunt dit notitieblok downloaden en importeren in de werkruimte als het downloaden van artefacten is ingeschakeld door uw werkruimtebeheerders.

Shapley-waarden (SHAP) voor modeltoelichtendheid

Notitie

Voor MLR 11.1 en lager worden SHAP-plots niet gegenereerd als de gegevensset een datetime kolom bevat.

De notebooks die door AutoML-regressie en classificatie worden geproduceerd, bevatten code voor het berekenen van Shapley-waarden. Shapley-waarden zijn gebaseerd op speltheorie en schatten het belang van elke functie in de voorspellingen van een model.

AutoML-notebooks berekenen Shapley-waarden met behulp van het SHAP-pakket. Omdat deze berekeningen zeer geheugenintensief zijn, worden de berekeningen niet standaard uitgevoerd.

Shapley-waarden berekenen en weergeven:

  1. Ga naar de sectie Functiebelang in een door AutoML gegenereerd proefnotitieblok.
  2. Instellen shap_enabled = True.
  3. Voer het notebook opnieuw uit.

Volgende stappen