Suunnittele tietojen integrointi ja analyysiratkaisu Azure Databricksin avulla

8 minuuttia

Azure Databricks on täysin hallittu pilvipohjainen massadata- ja koneoppimisympäristö, jonka avulla kehittäjät voivat nopeuttaa tekoälyä ja innovointia. Azure Databricks tarjoaa tietojenkäsittely- ja suunnittelutiimejä, joissa on yksi alusta massadatan käsittelyyn ja koneoppimiseen. Azure Databricksin hallitseman Apache Spark -ympäristön avulla on helppo suorittaa suuren mittakaavan Spark-kuormituksia.

Azure Databricksista tiedettävä asia

Azure Databricks perustuu täysin Apache Sparkiin, ja se on erinomainen työkalu käyttäjille, jotka ovat jo perehtyneet avoimen lähdekoodin klusteritietojenkäsittelykehykseen. Databricks on suunniteltu erityisesti massadatan käsittelyyn. Tietotutkijat voivat hyödyntää sisäistä ohjelmointirajapintaa keskeisille kielille, kuten SQL, Java, Python, R ja Scala.

Azure Databricksissä on Control-taso ja Data-taso:

Control Plane: Isännöi Databricks-töitä, muistikirjoja, joissa on kyselytuloksia, ja klusterin hallintaa. Ohjauskoneessa on myös verkkosovellus, hive-metasäilö, suojauksen käyttöoikeuksien valvontaluettelot ja käyttäjäistunnot. Microsoft hallitsee näitä komponentteja yhdessä Azure Databricksin kanssa.
Data Plane: Sisältää kaikki Azure Databricks runtime -klusterit, joita isännöidään työtilassa. Kaikki tietojen käsittely ja tallennustila on olemassa asiakastilauksen sisällä. Microsoft/Databricks-hallitussa tilauksessa ei koskaan käsitellä tietoja.

Azure Databricks tarjoaa kolme ympäristöä, joissa kehitetään tietointensiivisiä sovelluksia.

Databricks SQL: Azure Databricks SQL tarjoaa helppokäyttöisen ympäristön analyytikoille, jotka haluavat suorittaa SQL-kyselyitä Data Lake -järjestelmässään. Voit luoda useita visualisointityyppejä, joiden avulla voit tutkia kyselyn tuloksia eri näkökulmista sekä luoda ja jakaa koontinäyttöjä.
Databricks Data Science & Engineering: Azure Databricks Data Science & Engineering on vuorovaikutteinen työtila, joka mahdollistaa datainsinöörien, tietotutkijoiden ja koneoppimisinsinöörien yhteistyön. Jos kyseessä on massadataputki, tiedot (raaka tai jäsennetty) käsitellään Azuressa Azure Data Factoryn kautta erissä tai suoratoistaa lähes reaaliaikaisesti käyttämällä Apache Kafkaa, Azure-tapahtumatoimintoja tai Azure IoT Hubia. Tiedot päätyvät Data Lake -järjestelmään pitkäkestoiseen tallennustilaan Azure Blob -tallennustilaan tai Azure Data Lake Storageen. Azure Databricksin avulla voit osana analytiikan työnkulkua lukea tietoja useista tietolähteistä ja muuttaa ne läpimurtonäkemyksiksi Sparkin avulla.
Databricksin automaattianalyysipalveluiden: Azure Databricksin automaattianalyysipalvelut on integroitu koneoppimisen päästä päähän -ympäristö. Se sisältää hallittuja palveluita kokeilujen seurantaan, mallin harjoittamiseen, ominaisuuksien kehittämiseen ja hallintaan sekä ominaisuuksien ja mallien palvelemiseen.

Liiketoimintaskenaario

Analysoidaan tailwind Traders -skenaariota raskaan koneiden valmistuksen osastolla. Tailwind Traders käyttää Azure-pilvipalveluja massadatatarpeisiinsa. He käsittelevät sekä erätietoja että virtautettavia tietoja. Divisioona palkkaa datainsinöörit, datatieteilijät ja tietoanalyytikot, jotka yhdessä tuottavat nopeaa merkityksellistä raportointia monille sidosryhmille. Jotta massadataa koskevat vaatimukset täyttyvät, aiot suositella Azure Databricksia ja käyttää Data Science and Engineering -ympäristöä.

Katsotaan, miksi Azure Databricks on oikea valinta näiden vaatimusten täyttämiseksi.

Azure Databricks tarjoaa integroidun Analytics -työtilan, joka perustuu Apache Sparkiin. Tämä mahdollistaa yhteistyön eri käyttäjien välillä.
Käyttämällä Spark-komponentteja, kuten Spark SQL:ää ja tietokehyksiä, Azure Databricks voi käsitellä jäsennettyjä tietoja. Se integroituu reaaliaikaisiin tietojen käsittelytyökaluihin, kuten Kafkaan ja Flumeen, tietojen suoratoistoa varten.
Sparkin päälle luotujen suojattujen tietojen integrointiominaisuuksien avulla voit yhdistää tietojasi ilman keskittämistä. Tietotutkijat voivat visualisoida tietoja muutamassa vaiheessa ja käyttää tuttuja työkaluja, kuten Matplotlib, ggplot tai d3.
Azure Databricks runtime abstraktoi infrastruktuurin monimutkaisuuden ja tarvittavan erityisosaamisen tarpeen tietoinfrastruktuurin määrittämiseksi ja määrittämiseksi. Käyttäjät voivat käyttää olemassa olevia kielitaitoja Pythonille, Skalaa ja R:lle ja tutkia tietoja.
Azure Databricks integroituu syvälle Azure-tietokantoihin ja -myymälöihin, kuten Azure Synapse Analyticsiin, Azure Cosmos DB:hen, Azure Data Lake Storageen ja Azure Blob Storageen. Se tukee monipuolisia tietosäilöympäristöjä, jotka täyttävät Tailwind Tradersin massadatan tallennustarpeet.
Integrointi Power BI:hin mahdollistaa nopeat ja merkitykselliset tiedot, mikä on Tailwind Tradersin vaatimus.
Azure Databricks SQL ei ole oikea valinta, koska se ei pysty käsittelemään jäsentämättömiä tietoja.
Azure Databricksin automaattianalyysipalvelut eivät myöskään ole oikea ympäristövaihtoehto, koska tässä skenaariossa ei vaadita koneoppimista.

Azure Databricksin käytössä huomioitavat seikat

Voit käyttää Azure Databricksia ratkaisuna useisiin tilanteisiin. Pohdi, miten palvelu voi hyödyttää tietojen integrointiratkaisuasi Tailwind Tradersille.

Ajatellaan datantietotieteen valmistelua. Luo, kloonaa ja muokkaa monimutkaisten, rakenteettomien tietojen klustereita. Muuta tietoklusterit tietyiksi työksi. Toimita tulokset datatutkijoille ja tietoanalyytikoille tarkastelua varten.
Ota huomioon merkitykselliset tiedot. Toteuta Azure Databricks ja luo suositusmoduureja, churn-analyyseja ja sisääntulon havaitsemista.
Harkitse data- ja analytiikkatiimien tuottavuutta. Luo yhteistyöympäristö ja jaetut työtilat tietoteknikoille, analyytikoille ja tutkijoille. Tiimit voivat tehdä yhteistyötä datatieteen elinkaaressa jaettujen työtilojen kanssa, mikä auttaa säästämään arvokasta aikaa ja resursseja.
Harkitse massadatakuormituksia. Hyödynnä Azure Data Lakea ja moduulia saadaksesi parhaan suorituskyvyn ja luotettavuuden massadatakuormituksillesi. Luo monivaiheisia tietoputkia.
Harkitse koneoppimisohjelmia. Hyödynnä integroitua koneoppimisen päästä päähän -ympäristöä. Se sisältää hallittuja palveluita kokeilujen seurantaan, mallin harjoittamiseen, ominaisuuksien kehittämiseen ja hallintaan sekä ominaisuuksien ja mallien palvelemiseen.

Palaute

Onko tästä sivusta apua?