Suunnittele data integration solution with Azure Data Lake
Data Lake on luonnollisessa muodossaan tallennettujen tietojen säilö, joka on yleensä blob-objekteina tai tiedostoina. Azure Data Lake Storage on kattava, skaalautuva ja kustannustehokas data lake -ratkaisu big data -analytiikkaan, joka on rakennettu Azure. Azure Data Lake Storage yhdistää tiedostojärjestelmän ja tallennusalustan, jotta voit nopeasti tunnistaa oivalluksia datastasi. Ratkaisu perustuu Azure Blob Storage -ominaisuuksiin tarjoten optimointeja analytiikkakuormille. Tämä integraatio mahdollistaa Azure-tallennus -analytiikan suorituskyvyn, korkean käytettävyyden, turvallisuuden ja kestävyyden. Tässä videossa ei tarjota esittelyä.
Tärkeää
Azure Data Lake Storage Gen1 poistettiin käytöstä 29. helmikuuta 2024. Olemassa olevat Gen1-tilit eivät ole enää käytettävissä, eikä uusia tilejä voi luoda. Tämä yksikkö kattaa yksinomaan Azure Data Lake Storage Gen2:n.
Asioita, jotka kannattaa tietää Azure Data Lake Storage -ohjelmasta
Ymmärtääksemme paremmin Azure Data Lake Storagea, tarkastellaan seuraavia ominaisuuksia.
Azure Data Lake Storage voi tallentaa minkä tahansa tyyppisiä tietoja käyttämällä datan natiivimuotoa. Tukemalla mitä tahansa datamuotoa ja valtavat datakoot Azure Data Lake Storage pystyy käsittelemään rakenteellista, puolirakenteellista ja jäsentämätöntä dataa.
Ratkaisu on suunniteltu ensisijaisesti toimimaan Hadoopin ja kaikkien sovelluskehysten kanssa, joiden tiedonkäyttökerroksena on Apache Hadoop Distributed File System (HDFS). Tietojen analysointikehykset, jotka käyttävät HDFS:ää tietojen käyttökerroksena, ovat suoraan käytettävissä.
Azure Data Lake Storage tukee suurta läpimenokykyä syöte- ja tulostusintensiivisessä analytiikassa sekä datan siirrossa.
Azure Data Lake Storage -käyttöoikeuksien hallintamalli tukee sekä Azure-roolipohjaista käyttöoikeuksien hallintaa (RBAC) että Portable Operating System Interface for UNIX (POSIX) -käyttöoikeuksien hallintalistoja (ACL).
Azure Data Lake Storage kasutab Azure Blob replication models. Nämä mallit tukevat samoja redundanssivaihtoehtoja kuin Azure Blob Storage. Microsoft suosittelee ZRS:ää Azure Data Lake Storage -työkuormille.
Azure Data Lake Storage tarjoaa valtavan tallennustilan ja hyväksyy useita datatyyppejä analytiikkaan.
Azure Data Lake Storage on hinnoiteltu Azure Blob Storage -tasolle.
Miten Azure Data Lake Storage toimii
Azure Data Lake Storage:n käyttämiseen on kolme tärkeää vaihetta:
Tietojen käyttö. Azure Data Lake Storage tarjoaa monia erilaisia tiedon vastaanottomenetelmiä:
- Suunnittelemattomiin tietoihin voit käyttää työkaluja kuten AzCopy, Azure CLI, PowerShell ja Azure Storage Explorer.
- Relaatiodataan voidaan käyttää Azure Data Factory -palvelua. Voit siirtää dataa mistä tahansa lähteestä, kuten Azure Cosmos DB:stä, SQL Databasesta, Azure SQL Managed -instansseista ja muusta.
- Suoratoistodataan voit käyttää työkaluja kuten Apache Storm Azure HDInsight, Azure Stream Analytics ja niin edelleen.
Seuraava kaavio näyttää, miten suunnittelematon data ja suoratoistodata siirretään massana tai suunnittelemattomasti Azure Data Lake Storage -järjestelmään.
Accessin tallennetut tiedot. Helpoin tapa päästä käsiksi tietoihisi on käyttää Azure Storage Explorer. tallennustilan hallinta on itsenäinen sovellus, jossa on graafinen käyttöliittymä (GUI) Azure Data Lake Storage -datan käyttämiseen. Voit myös käyttää PowerShelliä, Azure CLI:tä, HDFS CLI:tä tai muita ohjelmointikielten SDK:ita datan käsittelyyn.
Käyttöoikeuksien valvonnan määrittäminen. Hallitse, kuka pääsee käsiksi Azure Data Lake Storage -järjestelmään tallennettuun dataan toteuttamalla valtuutusmekanismin. Voit valita Azure RBAC:n tai ACL:n.
Liiketoimintaskenaario
Tailwind Tradersissä on useita tietolähteitä, kuten verkkosivustoja, MYYNTIPISTE (POS) -järjestelmiä, sosiaalisen median sivustoja ja Esineiden Internet (IoT) -laitteita. Yritys on kiinnostunut käyttämään Azure:ta analysoidakseen kaiken liiketoimintatietonsa. Sinun tehtävänne on antaa ohjeita siitä, miten Azure voi parantaa olemassa olevia BI-järjestelmiään. Sinun tulee neuvoa tiimiä siitä, miten Azure-tallennusmahdollisuudet voivat tuoda lisäarvoa yrityksen BI-ratkaisuun. Datavaatimusten täyttämiseksi aiot suositella Azure Data Lake Storage:ta. Data Lake Storage tarjoaa varaston, johon voit ladata ja tallentaa valtavia määriä jäsentämätöntä dataa korkean suorituskyvyn big data -analytiikkaa silmällä pitäen.
Katsotaanpa, miten Azure Data Lake Storage voi olla oikea valinta organisaation big data -vaatimuksiin.
| Skenaario | Ratkaisu |
|---|---|
| Tarjoa pilvipalvelussa tietovarasto suurten tietomäärien. | Azure Data Lake Storage toimii virtuaalilaitteistolla Azure-alustalla. Tallennustila on skaalautuvaa, nopeaa ja luotettavaa ilman massiivisia maksuja. Se erottaa tallennuskustannukset käsittelykustannuksista. Kun tietomääräsi kasvaa, vain tallennustilavaatimukset muuttuvat. |
| tukevat monenlaisia tietotyyppejä, kuten JSON-tiedostoja, CSV-tiedostoja, lokitiedostoja tai muita muotoja,. | Azure Data Lake Storage mahdollistaa datan demokratisoinnin organisaatiollesi tallentamalla kaikki tietomuotosi (mukaan lukien raakatiedot) yhteen paikkaan. Poistamalla datasiiloja käyttäjäsi voivat käyttää työkaluja, kuten Azure Data Explorer, päästäkseen käsiksi ja työskennelläkseen jokaisen tallennustilin tietokohteen kanssa. |
| Ota käyttöön reaaliaikainen tietojen käsittely ja tallennus. | Azure Data Lake Storage voi vastaanottaa reaaliaikaista dataa suoraan Apache Stormin instanssista Azure HDInsight-, Azure IoT Hub-, Azure Event Hubs- tai Azure Stream Analytics-palveluissa. Se toimii myös osittain rakenteisten tietojen kanssa, ja sen avulla voit käsitellä kaikki reaaliaikaiset tietosi tallennustilillesi. |
Asioita, joita kannattaa ottaa huomioon valitessaan Azure Blob Storage tai Azure Data Lake
Seuraava taulukko vertailee storage solution -kriteerejä Azure Blob Storage versus Azure Data Lake -järjestelmän käytölle. Tarkista ehdot ja mieti, mikä ratkaisu on optimaalinen Tailwind Tradersille.
| Verrata | Azure Data Lake | Azure Blob Storage |
|---|---|---|
| Tietotyypit | Sopii hyvin suurten tekstitietojen tallennusta varten | Hyvä rakenteettomien tekstipohjaisten tietojen, kuten valokuvien, videoiden ja varmuuskopioiden, tallentamiseen |
| Maantieteellinen redundanssi | Tietojen replikoinnin on määritettävä manuaalisesti | Tarjoaa maantieteellisesti vikasietoisen tallennustilan oletusarvoisesti |
| Namespaces - | Tukee hierarkkisia nimitiloja | Tukee tietueita nimitiloja |
| Hadoop-yhteensopivuus | Hadoop-palvelut voivat käyttää Azure Data Lake -ohjelmaan tallennettuja tietoja | Azure Blob Filesystem Driverin avulla sovellukset ja kehykset voivat käyttää Azure Blob Storage -tietoja. |
| :n suojauksen | Tukee rakeista käyttöä | Rakeista käyttöä ei tueta |
Vinkki
Opi lisää omaan tahtiin etenevällä harjoittelulla, Johdatus Azure Data Lake Storage Gen2.