Jaa


Koneoppimismallien harjoittaminen

Apache Spark , osa Microsoft Fabricia, mahdollistaa massadatan käytön koneoppimisessa. Apache Sparkin avulla voit luoda arvokkaita merkityksellisiä tietoja suurista rakenteisista, jäsentämättömistä ja nopeasti eteneneistä tiedoista. Käytettävissäsi on useita avoimen lähdekoodin kirjastovaihtoehtoja, kun opetat koneoppimismalleja Apache Sparkillä Microsoft Fabricissa: Apache Spark MLlib, SynapseML ja muut.

Apache SparkML ja MLlib

Apache Spark – osa Microsoft Fabricia – tarjoaa yhtenäisen avoimen lähdekoodin rinnakkaisen tietojenkäsittelykehyksen. Tämä kehys tukee muistissa tapahtuvaa käsittelyä, joka tehostaa massadata-analytiikkaa. Spark-prosessointimoduuli on luotu nopeutta, helppokäyttöisyyttä ja kehittyneitä analyyseja varten. Sparkin muistissa olevat hajautetut laskentaominaisuudet tekevät siitä hyvän valinnan koneoppimisen ja kaaviolaskennan käyttämille iteratiivisille algoritmeille.

Skaalattavat MLlib - ja SparkML-kirjastot tuovat algoritmisen mallinnuksen ominaisuudet tähän hajautettuun ympäristöön. MLlib sisältää alkuperäisen ohjelmointirajapinnan, joka on luotu RDD-kutsujen päälle. SparkML on uudempi paketti. Se tarjoaa korkeamman tason ohjelmointirajapinnan, joka on rakennettu DataFramesin päälle koneoppimisputkien rakentamiseen. SparkML ei vielä tue kaikkia MLlibin ominaisuuksia, mutta se korvaa MLlibin tavallisena Spark-koneoppimiskirjastona.

Muistiinpano

Lisätietoja SparkML-mallin luomisesta on Train models with Apache Spark MLlib -resurssissa.

Microsoft Fabric runtime for Apache Spark sisältää useita suosittuja avoimen lähdekoodin paketteja koneoppimismallien harjoittamiseen. Nämä kirjastot tarjoavat uudelleenkäytettävän koodin, jonka voit sisällyttää ohjelmiin tai projekteihin. Suorituspalvelu sisältää seuraavat olennaiset koneoppimiskirjastot ja muita:

  • Scikit-learn – yksi suosituimpista yhden solmun koneoppimiskirjastoista klassisille ML-algoritmeille. Scikit-learn tukee useimpia valvottuja ja valvomattomia oppimisalgoritmeja sekä kykenee käsittelemään tietojen louhinnan ja tietojen analysoimisen.

  • XGBoost – suosittu koneoppimiskirjasto, joka sisältää optimoituja algoritmeja päätöspuiden ja satunnaisten metsien harjoittamiseen.

  • PyTorch ja Tensorflow ovat tehokkaita syväoppimisen Python-kirjastoja. Näiden kirjastojen avulla voit määrittää varannon suoritustiedostojen määräksi nolla, jos haluat luoda yhden koneen malleja. Vaikka määritys ei tuekaan Apache Sparkiä, se on yksinkertainen ja kustannustehokas tapa luoda yhden koneen malleja.

SynapseML

SynapseML:n avoimen lähdekoodin kirjasto (aiemmin MMLSpark) yksinkertaistaa erittäin skaalattavien koneoppimisputkien luomista. Sen avulla datatieteilijän Sparkin käytöstä tulee tuottavampaa, koska kirjasto lisää kokeilujen määrää ja käyttää huippuluokan koneoppimistekniikoita , mukaan lukien syväoppimista - suurissa tietojoukoissa.

SynapseML tarjoaa tason SparkML:n alemman tason ohjelmointirajapintojen yläpuolelle skaalattavia ml-malleja luotaessa. Nämä ohjelmointirajapinnat kattavat merkkijonojen indeksoimisen, ominaisuusvektorikokoonpanon, tietojen pakottamisen koneoppimisalgoritmeja varten sopiviksi asetteluiksi ja paljon muuta. SynapseML-kirjasto yksinkertaistaa näitä ja muita yleisiä tehtäviä mallien rakentamisessa PySparkissa.

Tässä artikkelissa on yleiskatsaus eri vaihtoehdoista, jotka ovat käytettävissä koneoppimismallien kouluttamiseen Microsoft Fabricin Apache Sparkissä. Saat lisätietoja mallin harjoittamisesta seuraavista resursseista: