Ota käyttöön data-analytiikkaratkaisu Azure Databricksin avulla

Yhdellä silmäyksellä

Tämän oppimispolun loppuun mennessä olet luonut vankat keskitason ja edistyneet taidot sekä Databricksissä että Sparkissa Azuressa. Voit käsitellä, muuntaa ja analysoida suuren mittakaavan tietojoukkoja Spark DataFramesin, Spark SQL:n ja PySparkin avulla, mikä antaa sinulle varmuuden hajautetun tietojenkäsittelyn käyttämisestä. Databricksissä osaat siirtyä työtilassa, hallita klustereita sekä luoda ja ylläpitää Delta-taulukoita.

Pystyt myös suunnittelemaan ja suorittamaan ETL-putkia, optimoimaan Delta-taulukoita, hallitsemaan rakennemuutoksia ja soveltamaan tietojen laatusääntöjä. Lisäksi opit organisoimaan työkuormia Lakeflow-töiden ja -putkien avulla, jolloin voit siirtyä kartoituksesta automatisoituihin työnkulkuihin. Lopuksi tutustut hallinto- ja suojausominaisuuksiin, kuten Unity Catalogiin, Purview-integrointiin ja käyttöoikeuksien hallintaan, jotka valmistavat sinut toimimaan tehokkaasti tuotantovalmiissa tietoympäristöissä.

Edellytykset

Ennen kuin aloitat tämän oppimispolun, sinun tulee jo tutustua Pythonin ja SQL:n perusteisiin. Tämä sisältää mahdollisuuden kirjoittaa yksinkertaisia Python-komentosarjoja ja työskennellä yleisten tietorakenteiden kanssa sekä kirjoittaa SQL-kyselyitä tietojen suodattamiseksi, yhdistämiseksi ja yhdistämiseksi. Perustiedot yleisistä tiedostomuodoista, kuten CSV, JSON tai Parquet, auttavat myös tietojoukkojen käsittelyssä.

Lisäksi on tärkeää tuntea Azure-portaali ja ydinpalvelut, kuten Azure-tallennustila, sekä yleinen tietoisuus tietokäsitteistä, kuten erä- ja suoratoistokäsittelystä sekä jäsennellystä ja jäsennellystä ja jäsentämättömästä datasta. Vaikka se ei ole pakollista, aiempi altistuminen massadatakehyksille, kuten Sparkille, ja kokemus Jupyter-muistikirjojen kanssa työskentelystä voivat tehdä siirtymisestä Databricksiin sujuvampaa.

Tämän oppimispolun moduulit

Azure Databricks on pilvipalvelu, joka tarjoaa skaalattavan ympäristön tietoanalytiikkaan Apache Sparkin avulla.

Opi tekemään tietoanalyyseja Azure Databricksin avulla. Tutustu erilaisiin tietojen käsittelymenetelmiin ja siihen, miten voit integroida tietoja lähteistä, kuten Azure Data Lakesta ja Azure SQL -tietokannasta. Tämä moduuli opastaa sinua yhteistyömuistikirjojen avulla tekemään valmistelevia tietoanalyyseja (EDA), jotta voit visualisoida, käsitellä ja tutkia tietoja toistumien, poikkeamien ja korrelaatioiden paljastamiseksi.

Azure Databricks perustuu Apache Sparkiin, ja sen avulla tietoteknikot ja analyytikot voivat suorittaa Spark-töitä tietojen muuntamiseksi, analysoimiseksi ja visualisoimiseksi mittakaavassa.

Delta Lake on Azure Databricksin tiedonhallintaratkaisu, joka tarjoaa toimintoja, kuten ACID-tapahtumat, skeeman täytäntöönpanon ja aikamatkustuksen, mikä varmistaa tietojen yhtenäisyyden, eheyden ja versioominaisuudet.

Lakeflow-deklaratiivisten putkien luominen mahdollistaa reaaliaikaisen, skaalautuvan ja luotettavan tietojenkäsittelyn Delta Laken Azure Databricksin lisäominaisuuksien avulla

Työkuormien käyttöönotto Lakeflow Jobsin avulla sisältää monimutkaisten tietojenkäsittelyputkien, koneoppimisen työnkulkujen ja analytiikkatehtävien orkestroinnin ja automatisoinnin. Tässä moduulissa opit ottamaan kuormituksia käyttöön Databricks Lakeflow -töiden avulla.