Mikä on Microsoft Fabricin datatiede?

Microsoft Fabric tarjoaa tietojen rikastamista ja liiketoiminnan merkityksellisiä tietoja datatiedekokemuksista, joiden avulla käyttäjät voivat kehittää päästä päähän -datatieteen työnkulkuja. Data-analytiikan työkuormat toimivat suoraan ohjatulla yritysdatalla OneLakessa, joten voit käyttää valikoituja tietoaineistoja, jaettuja tietoja ja ennusteita ilman, että dataa tarvitsee siirtää järjestelmien välillä. Aloittaaksesi katso Data Science -oppaan.

Voit suorittaa laajan valikoiman toimintoja koko datatiedeprosessista:

Microsoft Fabric -käyttäjät pääsevät datatieteen aloitussivulle. Sen jälkeen he voivat löytää ja käyttää eri olennaisia resursseja seuraavassa näyttökuvassa esitetyllä tavalla:

Useimmat koneoppimisprojektit seuraavat tietojenkäsittelyprosessia. Korkealla tasolla tähän prosessiin kuuluvat seuraavat vaiheet:

Tässä artikkelissa kuvataan Microsoft Fabric Data Science -ominaisuuksia tietojenkäsittelyprosessin näkökulmasta. Tässä artikkelissa esitellään jokaisessa tietojenkäsittelyprosessin vaiheessa Microsoft Fabric -ominaisuudet, joista voi olla apua.

Ongelman muotoileminen ja ideat

Microsoft Fabricin datatieteen käyttäjät työskentelevät samassa ympäristössä kuin yrityskäyttäjät ja analyytikot. Tämän seurauksena tietojen jakamisesta ja yhteistyöstä tulee saumattomampaa eri rooleissa. Analyytikot voivat helposti jakaa Power BI -raportteja ja -tietojoukkoja tietojenkäsittelyn harjoittajien kanssa. Microsoft Fabric -roolien yhteistyö helppous helpottaa luovutusta ongelman muotoiluvaiheessa. Monivuokralaisten välinen datan jakaminen OneLakessa mahdollistaa monen organisaation yhteistyön, jolloin data-analytiikat pääsevät käsiksi ulkoisten kumppaneiden tai tytäryhtiöiden jakamiin hallittuihin tietoaineistoihin.

Tietojen etsiminen ja esikäsittely

Microsoft Fabricin käyttäjät voivat olla vuorovaikutuksessa OneLake-datan kanssa käyttämällä Lakehouse-resurssia. Tietojen selaamista ja käsittelemistä varten Lakehouse liittää helposti muistikirjaan. Käyttäjät voivat helposti lukea tietoja Lakehousesta suoraan Pandas-tietokehykseen. Kun tarkastelet tietoja, saumattomat tiedot ovat mahdollisia OneLakesta.

OneLake-pikakuvakkeet laajentavat tätä mahdollista tarjoamalla kopioimattoman pääsyn ulkoisiin laitteisiin tallennettuun tai muiden Fabric-työtilojen ja vuokralaisten kautta jaettuun dataan. Voit liittää pikakuvakkeen järvenmajaan ja lukea viitattua dataa muistikirjoista ilman päällekkäisyyksiä tai ETL:ää.

Tehokas työkalujoukko on saatavilla tietojen käsittely- ja tietojen orkestrointijaksoihin tietojen integrointiputkien kanssa, jotka ovat suoraan integroitu osa Microsoft Fabricia. Helposti rakennettavat putket voivat käyttää ja muuntaa dataa muotoon, jota koneoppiminen voi käyttää.

Tietojen kartoitus

Tärkeä osa koneoppimisprosessia sisältää tietojen ymmärtämisen tarkastelemisen ja visualisoinnin avulla.

Tietojen tallennussijainnista riippuen Microsoft Fabric tarjoaa työkaluja, joiden avulla voit tutkia ja valmistella tietoja analysointia ja koneoppimista varten. Muistikirjoista itsestään tulee tehokkaita ja tehokkaita tietojentutkimustyökaluja.

Apache Spark ja Python tietojen valmisteluun

Microsoft Fabric voi muuntaa, valmistella ja tutkia tietojasi suuressa mittakaavassa. Sparkin avulla käyttäjät voivat esikäsitellä tietoja mittakaavassa PySpark/Python-, Scala- ja SparkR/SparklyR-työkaluilla. Tehokkaat avoimen lähdekoodin visualisointikirjastot voivat parantaa tietojen tutkimuskokemusta tietojen ymmärtämisen parantamiseksi.

Data Wrangler saumattomalle tietojen puhdistukselle

Data Wrangler -palvelun käyttöä varten Microsoft Fabric Notebook -käyttökokemus lisäsi koodityökaluominaisuuden, joka valmistelee tietoja ja luo Python-koodia. Tämän kokemuksen ansiosta on helppo nopeuttaa työlästä ja arkista tehtävää, kuten tietojen siistimistä. Sen avulla voit myös luoda automatisointia ja toistettavuutta luodun koodin avulla. Lisätietoja Data Wranglerista on tämän asiakirjan Data Wrangler -osiossa.

Kokeilut ja koneoppimisen mallinnus

Muistikirjat pystyvät käsittelemään koneoppimismallin harjoittamista työkaluilla, kuten PySpark/Python ja SparklyR/R. Koneoppimisen algoritmit ja kirjastot voivat auttaa koneoppimismallien kouluttamisessa. Kirjastonhallintatyökalut voivat asentaa näitä kirjastoja ja algoritmeja. Käyttäjät voivat suositujen koneoppimiskirjastojen avulla suorittaa koneoppimismallien koulutuksensa Microsoft Fabricissa. Lisäksi suositut kirjastot, kuten Scikit Learn, voivat kehittää malleja.

MLflow-kokeet ja -suoritukset voivat seurata koneoppimismallin harjoittamista. Microsoft Fabric tarjoaa kokeilujen ja mallien lokiin valmiin MLflow-kokemuksen, joka tukee vuorovaikutusta. Lue lisää siitä, miten voit MLflow'n avulla seurata kokeita ja hallita malleja Microsoft Fabricissa.

SynapseML

Microsoft omistaa ja ylläpitää SynapseML:n (entinen MMLSpark) avoimen lähdekoodin kirjastoa. Se yksinkertaistaa massiivisesti skaalautuvien koneoppimisputkien luomista. Työkaluekosysteeminä se laajentaa Apache Spark -kehystä useisiin uusiin suuntiin. SynapseML yhdistää useita olemassa olevia koneoppimiskehyksiä ja uusia Microsoftin algoritmeja yhdeksi skaalautuvaksi API:ksi. Avoimen lähdekoodin SynapseML-kirjasto sisältää rikkaan ekosysteemin koneoppimistyökaluja ennakoivan mallin kehittämiseen, ja se käyttää Foundry Toolsin esikoulutettuja tekoälymalleja. Lisätietoja on SynapseML-resurssissa .

Täydennä ja operationalisoi

Muistikirjat pystyvät käsittelemään koneoppimismallin erän pisteytyksen avoimen lähdekoodin kirjastoilla ennustetta varten. Ne pystyvät myös käsittelemään Microsoft Fabricin skaalattavan yleisen Spark Predict -funktion. Tämä funktio tukee Microsoft Fabric -mallirekisterin MLflow-paketoituja malleja.

Tietojen kerääminen

Microsoft Fabricissa voit helposti kirjoittaa ennustettuja arvoja OneLakeen. Tästä eteenpäin Power BI:n raportit voivat saumattomasti käyttää niitä Power BI Direct Lake -tilassa, joka lukee dataa suoraan OneLakesta ilman, että sitä tarvitsee kopioida semanttiseen malliin. Tämä kopiovapaa pääsymalli pitää ennusteet ajan tasalla ja poistaa päällekkäisen datan liikkumisen. Data-analytiikan ammattilaiset voivat tällöin helposti jakaa työnsä tulokset sidosryhmille, mikä yksinkertaistaa operatiivista toimintaa.

Muistikirjojen aikatauluominaisuuksilla voit ajoittaa muistikirjojen suorituksia, jotka sisältävät erän pisteytyksen. Voit myös ajoittaa eräpisteytyksen osana putkitoimintoja tai Spark-töitä. Microsoft Fabric direct lake -tilassa Power BI saa automaattisesti uusimmat ennusteet ilman tietojen lataamista tai päivitystä.

Tietojen tarkasteleminen semanttisen linkin avulla

Tietotutkijat ja yritysanalyytikot käyttävät paljon aikaa tietojen ymmärtämiseen, puhdistamiseen ja muuntamiseen, ennen kuin merkityksellinen analyysi voi alkaa. Liiketoiminta-analyytikot työskentelevät tyypillisesti semanttisten mallien parissa ja koodaavat toimialatietonsa ja liiketoimintalogiikkansa Power BI -mittareiksi. Toisaalta data-analyytikot voivat työskennellä samoilla dadoilla, mutta käyttävät tyypillisesti eri koodiympäristöä tai kieltä. Semanttisen linkin avulla tietojenkäsittelyasiantuntijat voivat muodostaa yhteyden Power BI:n semanttisten mallien ja Synapse Data Sciencen välille Microsoft Fabric -kokemuksessa SemPy Python -kirjaston kautta. Tietojen analysoinnin yksinkertaistamiseksi SemPy tallentaa ja käyttää tietojen semantiikkaa, kun käyttäjät suorittavat erilaisia muunnoksia semanttisiin malleihin. Kun tietojenkäsittelyasiantuntijat käyttävät semanttista linkkiä, he voivat

vältä liiketoimintalogiikan ja toimialuetiedon uudelleenyhtämistä koodissaan
Power BI -mittareiden helppo käyttö ja käyttö niiden koodissa
semantiikan käyttö uusien käyttökokemusten lisääminen – esimerkiksi semanttiset funktiot
tutki ja vahvista funktionaalisia riippuvuuksia ja tietojen välisiä suhteita

Kun organisaatiot käyttävät SemPyä, ne voivat odottaa

tuottavuuden lisääminen ja nopeampi yhteistyö samoilla tietojoukoilla toimivissa tiimeissä
lisääntynyt yhteistyö liiketoimintatietojen ja tekoälytiimien välillä
pienempi moniselitteisyys ja helpompi oppimiskäyrä, kun perehdytään uuteen malliin tai tietojoukkoon

Lisätietoja semanttisesta linkistä löytyy kohdasta Mikä on semanttinen linkki?.

Siirry datatieteen opetusohjelmiin , joiden avulla pääset alkuun päästä päähän -datatiedenäytteiden kanssa
Kohdassa Data Wrangler saat lisätietoja tietojen valmistelusta ja puhdistamisesta Data Wranglerin avulla
Tutustu koneoppimisen kokeiluihin , niin saat lisätietoja kokeiden seurannasta
Tutustu koneoppimismalliin , niin saat lisätietoja mallin hallinnasta
Tutustu PREDICT-malleja koskeviin pisteytysmalleihin , niin saat lisätietoja erän pisteytyksestä Predict-kohteella
Lakehouse-ennusteiden tarjoaminen Power BI:hin Direct Laken avulla

Palaute

Onko tästä sivusta apua?

Last updated on 2026-03-31