Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
AutoML vereenvoudigt het proces van het toepassen van machine learning op uw gegevenssets door automatisch het beste algoritme en de hyperparameterconfiguratie voor u te vinden.
Hoe werkt AutoML?
Geef uw gegevensset op en geef het type machine learning-probleem op. AutoML doet het volgende:
- Schoont uw gegevens op en bereidt deze voor.
- Organiseert gedistribueerde modeltraining en afstemming van hyperparameters voor meerdere algoritmen.
- Hiermee vindt u het beste model met behulp van opensource-evaluatiealgoritmen van scikit-learn, xgboost, LightGBM, Prophet en ARIMA.
- Geeft de resultaten weer. AutoML genereert ook broncodenotitieblokken voor elke proefversie, zodat u de code indien nodig kunt bekijken, reproduceren en wijzigen.
Aan de slag met AutoML-experimenten via een gebruikersinterface met weinig code voor regressie; classificatie; of prognoses, of de Python-API.
Eisen
Azure Databricks raadt Databricks Runtime 10.4 LTS ML of hoger aan voor algemene beschikbaarheid van AutoML.
AutoML is afhankelijk van het
databricks-automl-runtime
pakket, dat onderdelen bevat die nuttig zijn buiten AutoML en helpt ook de notebooks te vereenvoudigen die worden gegenereerd door AutoML-training.databricks-automl-runtime
is beschikbaar op PyPI.Er mogen geen extra bibliotheken worden geïnstalleerd op de cluster, behalve die vooraf zijn geïnstalleerd in Databricks Runtime voor Machine Learning.
- Wijzigingen (verwijderingen, upgrades of downgrades) aan bestaande bibliotheekversies leiden tot uitvoeringsfouten vanwege incompatibiliteit.
Als u toegang wilt krijgen tot bestanden in uw werkruimte, moet u netwerkpoorten 1017 en 1021 hebben geopend voor AutoML-experimenten. Als u deze poorten wilt openen of wilt bevestigen dat ze zijn geopend, controleert u de configuratie- en beveiligingsgroepsregels van uw cloud-VPN of neemt u contact op met uw lokale cloudbeheerder. Zie Een werkruimte maken voor meer informatie over de configuratie en implementatie van de werkruimte.
Gebruik een rekenresource met een ondersteunde compute-toegangsmodus. Niet alle compute-toegangsmodi hebben toegang tot de Unity Catalog:
Toegangsmodus berekenen AutoML-ondersteuning Ondersteuning voor Unity Catalog Dedicated (voorheen enkele gebruiker) Ondersteund Ondersteund Standard- (voorheen gedeeld) Niet ondersteund Ondersteund Geen isolatie gedeeld Ondersteund Niet ondersteund
AutoML-algoritmen
AutoML traint en evalueert modellen op basis van de algoritmen in de volgende tabel.
Notitie
Voor classificatie- en regressiemodellen zijn de beslissingsstructuur, willekeurige forests, logistieke regressie en lineaire regressie met stochastische gradiëntafnamealgoritmen gebaseerd op scikit-learn.
Classificatiemodellen | Regressiemodellen | Prognosemodellen | Prognosemodellen (serverloos) |
---|---|---|---|
Beslissingsstructuren | Beslissingsstructuren | Profeet | Profeet |
Willekeurige forests | Willekeurige forests | Auto-ARIMA (beschikbaar in Databricks Runtime 10.3 ML en hoger.) | auto-ARIMA |
Logistieke regressie | Lineaire regressie met stochastische gradiëntafname | DeepAR | |
XGBoost | XGBoost | ||
LightGBM | LightGBM |
Generatie van proefnotitieblok
Klassieke compute AutoML genereert notebooks van de broncode achter proefversies, zodat u de code indien nodig kunt bekijken, reproduceren en wijzigen.
Voor prognoseexperimenten worden door AutoML gegenereerde notebooks automatisch geïmporteerd in uw werkruimte voor alle proefversies van uw experiment.
Voor classificatie- en regressieexperimenten worden door AutoML gegenereerde notebooks voor gegevensverkenning en de beste proefversie in uw experiment automatisch geïmporteerd in uw werkruimte. Gegenereerde notebooks voor andere experimenten worden opgeslagen als MLflow-artefacten in DBFS in plaats van automatisch geïmporteerd in uw werkruimte. Voor alle proefversies naast de beste proefversie zijn de notebook_path
en notebook_url
in de TrialInfo
Python-API niet ingesteld. Als u deze notebooks wilt gebruiken, kunt u deze handmatig importeren in uw werkruimte met de gebruikersinterface van het AutoML-experiment of de databricks.automl.import_notebook
Python-API.
Als u alleen het gegevensverkenningsnotitieblok of het beste poging-notitieblok gebruikt dat is gegenereerd door AutoML, bevat de Herkomstkolom in de AutoML-experimentinterface de koppeling naar het gegenereerde notitieblok voor de beste poging.
Als u andere gegenereerde notebooks gebruikt in de gebruikersinterface van het AutoML-experiment, worden deze niet automatisch geïmporteerd in de werkruimte. U vindt de notebooks door te klikken op elke MLflow-run. Het IPython-notebook wordt opgeslagen in de sectie Artefacten van de uitvoeringspagina. U kunt dit notitieblok downloaden en importeren in de werkruimte als het downloaden van artefacten is ingeschakeld door uw werkruimtebeheerders.
Shapley-waarden (SHAP) voor modeltoelichtendheid
Notitie
Voor MLR 11.1 en lager worden SHAP-plots niet gegenereerd als de gegevensset een datetime
kolom bevat.
De notebooks die door AutoML-regressie en classificatie worden geproduceerd, bevatten code voor het berekenen van Shapley-waarden. Shapley-waarden zijn gebaseerd op speltheorie en schatten het belang van elke functie in de voorspellingen van een model.
AutoML-notebooks berekenen Shapley-waarden met behulp van het SHAP-pakket. Omdat deze berekeningen zeer geheugenintensief zijn, worden de berekeningen niet standaard uitgevoerd.
Shapley-waarden berekenen en weergeven:
- Ga naar de sectie Functiebelang in een door AutoML gegenereerd proefnotitieblok.
- Stel
shap_enabled = True
in. - Voer het notebook opnieuw uit.