Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of mappen te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen om mappen te wijzigen.
Apache Spark, onderdeel van Microsoft Fabric, maakt machine learning op schaal mogelijk. Gebruik deze om inzicht te krijgen in grote hoeveelheden gestructureerde, ongestructureerde en streaminggegevens. Train modellen in Microsoft Fabric met opensource-bibliotheken, zoals Apache Spark MLlib, SynapseML en andere.
Apache SparkML en MLlib
Apache Spark, onderdeel van Microsoft Fabric, is een geïntegreerd opensource- en parallel gegevensverwerkingsframework. Het maakt gebruik van in-memory verwerking om big data-analyses te versnellen. Spark is gebouwd voor snelheid, gebruiksgemak en geavanceerde analyses. Spark's gedistribueerde in-memory berekeningen zijn geschikt voor iteratieve machine learning- en graafalgoritmen.
De schaalbare machine learning-bibliotheken van MLlib en SparkML brengen algoritmemodelleringsmogelijkheden naar deze gedistribueerde omgeving. MLlib biedt de oorspronkelijke RDD-API. SparkML is een nieuwer pakket dat een dataframe-API op een hoger niveau biedt voor het bouwen van ML-pijplijnen. Het biedt een API op een hoger niveau die is gebouwd op DataFrames voor het bouwen van ML-pijplijnen. SparkML biedt nog geen ondersteuning voor alle MLlib-functies, maar vervangt MLlib als de standaard Spark Machine Learning-bibliotheek.
Notitie
Meer informatie in Modellen trainen met Apache Spark MLlib.
Populaire bibliotheken
De Microsoft Fabric-runtime voor Apache Spark bevat verschillende populaire opensource-pakketten voor het trainen van machine learning-modellen. Deze bibliotheken bieden herbruikbare code voor uw projecten. De runtime bevat deze machine learning-bibliotheken:
Scikit-learn : een populaire bibliotheek met één knooppunt voor klassieke machine learning-algoritmen. Het ondersteunt de meeste algoritmen onder toezicht en zonder toezicht en verwerkt zowel datamining als gegevensanalyse.
XGBoost - een populaire bibliotheek met geoptimaliseerde algoritmen voor het trainen van beslissingsstructuren en willekeurige forests.
PyTorch en Tensorflow zijn krachtige Python Deep Learning-bibliotheken. Met deze bibliotheken kunt u het aantal uitvoerders in uw pool instellen op nul om modellen met één machine te bouwen. Hoewel deze configuratie geen ondersteuning biedt voor Apache Spark, is het een eenvoudige, rendabele manier om modellen met één machine te maken.
SynapseML
Met de OpenSource-bibliotheek van SynapseML (voorheen MMLSpark) kunt u schaalbare machine learning-pijplijnen (ML) bouwen. Hiermee kunt u experimenteren en kunt u geavanceerde technieken, waaronder deep learning, toepassen op grote gegevenssets.
SynapseML biedt een laag boven de SparkML-API's op laag niveau bij het bouwen van schaalbare ML-modellen. Deze API's hebben betrekking op tekenreeksindexering, functievectorassembly, dwang van gegevens in indelingen die geschikt zijn voor machine learning-algoritmen en meer. De SynapseML-bibliotheek vereenvoudigt deze en andere algemene taken voor het bouwen van modellen in PySpark.
Gerelateerde inhoud
Verken opties voor het trainen van machine learning-modellen in Apache Spark in Microsoft Fabric. Voor meer informatie, zie:
- AI-voorbeelden gebruiken om machine learning-modellen te bouwen: AI-voorbeelden gebruiken
- Machine learning-uitvoeringen bijhouden met experimenten: Machine learning-experimenten