Koneoppiminen Azure Databricksissä
Azure Databricks tarjoaa kattavan pilvipohjaisen ympäristön koneoppimismallin kehittämistä varten. Koneoppiminen on kurinalaisuus, johon liittyy datatutkijoiden, tietoja analysoivien ja mallintavien sekä mallien käyttöönottoa ja hallintaa käyttävien koneoppimisinsinöörien välinen yhteistyö. Azure Databricksin avulla datatieteilijät voivat suorittaa tietojen käsittely-, tarkastelu- ja valmistelutehtäviä sekä mallinnus-, arviointi- ja hallintatehtäviä.
Koneoppimisen Databricks-suorituspalvelut
Kun luot klusterin Azure Databricks -työtilassa, voit määrittää Databricks-suorituspalvelun, joka asennetaan klusteriin. Azure Databricks sisältää joitakin databricks-suorituspalveluita, jotka on optimoitu koneoppimista varten. Ne sisältävät tuen kirjastoille, joita käytetään yleisesti koneoppimisen kuormituksissa, mukaan lukien koneoppimiskehykset ja apuohjelmat koneoppimistoimintojen hallintaan.
Jos aiot toteuttaa koneoppimisratkaisuja, luo klusteri, jossa on jokin koneoppimisen suorituspalveluista. Voit valita suoritinpohjaisen suorituspalvelun klassisia koneoppimisskenaarioita varten tai GPU-pohjaisen suorituspalvelun, jos sinun on luotava monimutkaisia neuroverkkoja syväoppimisen sovelluskehyksillä, jolloin voit hyödyntää yleisen tietosuojan kykyä käsitellä matriisi- ja vektoripohjaisia tietoja tehokkaasti.
Automaattianalyysipalveluiden kehykset Azure Databricksissä
Azure Databricks perustuu Apache Sparkiin, joka on erittäin skaalattava ympäristö hajautetun tietojen käsittelemisen käyttöön. Sparkissä datatieteilijät ja koneoppimisen teknikot työskentelevät yleensä vuorovaikutteisissa muistikirjoissa, joissa koodia käytetään tietojen valmisteluun ja sen käyttämiseen koneoppimismallien kouluttamiseen, kirjoitetaan PySparkiin (Python-versio, joka on optimoitu Sparkille). Python-ekosysteemissä on monia yleisesti käytettyjä koneoppimiskehyksiä, kuten:
- Scikit-Learn: Suosittu koneoppimisen sovelluskehys, joka tarjoaa laajan valikoiman algoritmeja ja muita kirjastoja ennakoivien mallien kouluttamiseksi ja arvioimiseksi.
-
Spark MLlib: Sparkille erityisesti luotu koneoppimiskirjasto. MLlib tarjoaa kaksi tapaa harjoittaa ja arvioida koneoppimismalleja:
- Luokat, jotka perustuvat Sparkin kestävään hajautettuun tietojoukon (RDD) rakenteeseen.
- Spark-tietokehyksen rakenteeseen perustuvat luokat. Tämä kehys (jota kutsutaan yleisesti nimellä Spark ML) on suositeltava MLlib-funktion käyttämisessä.
- PyTorch: Syväoppimiskehys , jota käytetään neuroverkkomallien rakentamiseen monimutkaisia ennusteita, tietokonenäköä ja luonnollisen kielen käsittelyn kuormituksia varten.
- TensorFlow: Toinen yleisesti käytetty syväoppimisen kehys.
Voit käyttää mitä tahansa näistä kehyksistä (ja niin edelleen) Azure Databricksissä koneoppimismallien kouluttamiseen ja arviointiin.