Delen via


Wat is AutoML?

AutoML vereenvoudigt het proces van het toepassen van machine learning op uw gegevenssets door automatisch het beste algoritme en de hyperparameterconfiguratie voor u te vinden.

Hoe werkt AutoML?

Geef uw gegevensset op en geef het type machine learning-probleem op. AutoML doet het volgende:

  1. Schoont uw gegevens op en bereidt deze voor.
  2. Organiseert gedistribueerde modeltraining en afstemming van hyperparameters voor meerdere algoritmen.
  3. Hiermee vindt u het beste model met behulp van opensource-evaluatiealgoritmen van scikit-learn, xgboost, LightGBM, Prophet en ARIMA.
  4. Geeft de resultaten weer. AutoML genereert ook broncodenotitieblokken voor elke proefversie, zodat u de code indien nodig kunt bekijken, reproduceren en wijzigen.

Aan de slag met AutoML-experimenten via een gebruikersinterface met weinig code voor regressie; classificatie; of prognoses, of de Python-API.

Eisen

  • Azure Databricks raadt Databricks Runtime 10.4 LTS ML of hoger aan voor algemene beschikbaarheid van AutoML.

  • AutoML is afhankelijk van het databricks-automl-runtime pakket, dat onderdelen bevat die nuttig zijn buiten AutoML en helpt ook de notebooks te vereenvoudigen die worden gegenereerd door AutoML-training. databricks-automl-runtime is beschikbaar op PyPI.

  • Er mogen geen extra bibliotheken worden geïnstalleerd op de cluster, behalve die vooraf zijn geïnstalleerd in Databricks Runtime voor Machine Learning.

    • Wijzigingen (verwijderingen, upgrades of downgrades) aan bestaande bibliotheekversies leiden tot uitvoeringsfouten vanwege incompatibiliteit.
  • Als u toegang wilt krijgen tot bestanden in uw werkruimte, moet u netwerkpoorten 1017 en 1021 hebben geopend voor AutoML-experimenten. Als u deze poorten wilt openen of wilt bevestigen dat ze zijn geopend, controleert u de configuratie- en beveiligingsgroepsregels van uw cloud-VPN of neemt u contact op met uw lokale cloudbeheerder. Zie Een werkruimte maken voor meer informatie over de configuratie en implementatie van de werkruimte.

  • Gebruik een rekenresource met een ondersteunde compute-toegangsmodus. Niet alle compute-toegangsmodi hebben toegang tot de Unity Catalog:

    Toegangsmodus berekenen AutoML-ondersteuning Ondersteuning voor Unity Catalog
    Dedicated (voorheen enkele gebruiker) Ondersteund Ondersteund
    Standard- (voorheen gedeeld) Niet ondersteund Ondersteund
    Geen isolatie gedeeld Ondersteund Niet ondersteund

AutoML-algoritmen

AutoML traint en evalueert modellen op basis van de algoritmen in de volgende tabel.

Notitie

Voor classificatie- en regressiemodellen zijn de beslissingsstructuur, willekeurige forests, logistieke regressie en lineaire regressie met stochastische gradiëntafnamealgoritmen gebaseerd op scikit-learn.

Classificatiemodellen Regressiemodellen Prognosemodellen Prognosemodellen (serverloos)
Beslissingsstructuren Beslissingsstructuren Profeet Profeet
Willekeurige forests Willekeurige forests Auto-ARIMA (beschikbaar in Databricks Runtime 10.3 ML en hoger.) auto-ARIMA
Logistieke regressie Lineaire regressie met stochastische gradiëntafname DeepAR
XGBoost XGBoost
LightGBM LightGBM

Generatie van proefnotitieblok

Klassieke compute AutoML genereert notebooks van de broncode achter proefversies, zodat u de code indien nodig kunt bekijken, reproduceren en wijzigen.

Voor prognoseexperimenten worden door AutoML gegenereerde notebooks automatisch geïmporteerd in uw werkruimte voor alle proefversies van uw experiment.

Voor classificatie- en regressieexperimenten worden door AutoML gegenereerde notebooks voor gegevensverkenning en de beste proefversie in uw experiment automatisch geïmporteerd in uw werkruimte. Gegenereerde notebooks voor andere experimenten worden opgeslagen als MLflow-artefacten in DBFS in plaats van automatisch geïmporteerd in uw werkruimte. Voor alle proefversies naast de beste proefversie zijn de notebook_path en notebook_url in de TrialInfo Python-API niet ingesteld. Als u deze notebooks wilt gebruiken, kunt u deze handmatig importeren in uw werkruimte met de gebruikersinterface van het AutoML-experiment of de databricks.automl.import_notebookPython-API.

Als u alleen het gegevensverkenningsnotitieblok of het beste poging-notitieblok gebruikt dat is gegenereerd door AutoML, bevat de Herkomstkolom in de AutoML-experimentinterface de koppeling naar het gegenereerde notitieblok voor de beste poging.

Als u andere gegenereerde notebooks gebruikt in de gebruikersinterface van het AutoML-experiment, worden deze niet automatisch geïmporteerd in de werkruimte. U vindt de notebooks door te klikken op elke MLflow-run. Het IPython-notebook wordt opgeslagen in de sectie Artefacten van de uitvoeringspagina. U kunt dit notitieblok downloaden en importeren in de werkruimte als het downloaden van artefacten is ingeschakeld door uw werkruimtebeheerders.

Shapley-waarden (SHAP) voor modeltoelichtendheid

Notitie

Voor MLR 11.1 en lager worden SHAP-plots niet gegenereerd als de gegevensset een datetime kolom bevat.

De notebooks die door AutoML-regressie en classificatie worden geproduceerd, bevatten code voor het berekenen van Shapley-waarden. Shapley-waarden zijn gebaseerd op speltheorie en schatten het belang van elke functie in de voorspellingen van een model.

AutoML-notebooks berekenen Shapley-waarden met behulp van het SHAP-pakket. Omdat deze berekeningen zeer geheugenintensief zijn, worden de berekeningen niet standaard uitgevoerd.

Shapley-waarden berekenen en weergeven:

  1. Ga naar de sectie Functiebelang in een door AutoML gegenereerd proefnotitieblok.
  2. Stel shap_enabled = Truein.
  3. Voer het notebook opnieuw uit.

Volgende stappen