Proiectează o soluție de integrare a datelor cu Azure Data Lake

Finalizat

Un lac de date este un depozit de date stocate în formatul său natural, de obicei sub formă de bloburi sau fișiere. Azure Data Lake Storage este o soluție de tip data lake cuprinzătoare, scalabilă și rentabilă pentru analiza big data, integrată în Azure. Azure Data Lake Storage combină un sistem de fișiere cu o platformă de stocare pentru a te ajuta să identifici rapid informații despre datele tale. Soluția se bazează pe capabilitățile Azure Blob Storage pentru a oferi optimizări pentru sarcinile de lucru de analiză. Această integrare permite performanța analitică, disponibilitatea ridicată, securitatea și durabilitatea Azure Storage. În acest videoclip, demonstrația nu este furnizată.

Important

Azure Data Lake Storage Gen1 a fost retras pe 29 februarie 2024. Conturile existente Gen1 nu mai sunt accesibile și nu pot fi create conturi noi. Această unitate acoperă exclusiv Azure Data Lake Storage Gen2.

Lucruri de știut despre Azure Data Lake Storage

Pentru a înțelege mai bine Azure Data Lake Storage, să analizăm următoarele caracteristici.

  • Azure Data Lake Storage poate stoca orice tip de date folosind formatul nativ al datelor. Cu suport pentru orice format de date și dimensiuni masive ale datelor, Azure Data Lake Storage poate lucra cu date structurate, semi-structurate și nestructurate.

  • Soluția este concepută în primul rând pentru a funcționa cu Hadoop și toate cadrele care utilizează Apache Hadoop Distributed File System (HDFS) ca strat de acces la date. Cadrele de analiză a datelor care utilizează HDFS ca strat de acces la date pot accesa direct.

  • Azure Data Lake Storage suportă un debit ridicat pentru analize intensive de intrare și ieșire și mișcare a datelor.

  • Modelul de control al accesului Azure Data Lake Storage suportă atât controlul accesului bazat pe rol Azure (RBAC), cât și listele de control al accesului Portable Operating System Interface for UNIX (POSIX) (ACL).

  • Azure Data Lake Storage utilizează modele de replicare Azure Blob. Aceste modele suportă aceleași opțiuni de redundanță disponibile pentru Azure Blob Storage. Microsoft recomandă ZRS pentru workload-urile Azure Data Lake Storage.

  • Azure Data Lake Storage oferă stocare masivă și acceptă numeroase tipuri de date pentru analiză.

  • Azure Data Lake Storage are un preț la nivelul Azure Blob Storage.

Cum funcționează Azure Data Lake Storage

Există trei pași importanți pentru a folosi Azure Data Lake Storage:

  1. Ingerați date. Azure Data Lake Storage oferă multe metode diferite de ingestie a datelor:

    • Pentru date neplanificate, poți folosi unelte precum AzCopy, Azure CLI, PowerShell și Azure Storage Explorer.
    • Pentru datele relaționale, se poate folosi serviciul Azure Data Factory. Poți transfera date din orice sursă, cum ar fi Azure Cosmos DB, SQL Database, instanțe Azure SQL Managed și altele.
    • Pentru streaming de date, poți folosi instrumente precum Apache Storm pe Azure HDInsight, Azure Stream Analytics și altele.

    Diagrama următoare arată cum datele neplanificate și datele în flux sunt ingerate în masă sau neplanificate în Azure Data Lake Storage.

    Diagramă care arată cum datele neplanificate și datele de flux sunt fie ingerate în masă, fie neplanificate în Azure Data Lake Storage.

  2. Accesați datele stocate. Cea mai simplă modalitate de a accesa datele tale este să folosești Azure Storage Explorer. Storage Explorer este o aplicație de sine stătătoare cu o interfață grafică (GUI) pentru accesarea datelor tale din Azure Data Lake Storage. Poți folosi și PowerShell, Azure CLI, HDFS CLI sau alte SDK-uri de limbaje de programare pentru accesarea datelor.

  3. Configurați controlul accesului. Controlează cine poate accesa datele stocate în Azure Data Lake Storage prin implementarea unui mecanism de autorizare. Poți alege Azure RBAC sau ACL.

Scenariu de business

Tailwind Traders are mai multe surse de date, inclusiv site-uri web, sisteme de puncte de vânzare (POS), site-uri de socializare și dispozitive Internet of Things (IoT). Compania este interesată să folosească Azure pentru a analiza toate datele lor de afaceri. Ai sarcina de a oferi îndrumare despre cum Azure își poate îmbunătăți sistemele BI existente. Trebuie să informezi echipa despre modul în care capabilitățile de stocare Azure pot adăuga valoare soluției BI a companiei. Pentru a îndeplini cerințele de date, plănuiești să recomanzi Azure Data Lake Storage. Data Lake Storage oferă un depozit unde poți încărca și stoca cantități uriașe de date nestructurate, având în vedere analize big data de înaltă performanță.

Să analizăm cum Azure Data Lake Storage poate fi alegerea potrivită pentru cerințele organizației privind big data.

Scenariu Soluție
Furnizați un depozit de date în cloud pentru gestionarea volumelor mari de date. Azure Data Lake Storage rulează pe hardware virtual pe platforma Azure. Stocarea este scalabilă, rapidă și fiabilă, fără a suporta taxe masive. Separă costurile de stocare de costurile de calcul. Pe măsură ce volumul de date crește, se schimbă doar cerințele de stocare.
Acceptă o colecție diversă de tipuri de date, cum ar fi fișiere JSON, CSV, fișiere jurnal sau alte formate. Azure Data Lake Storage permite democratizarea datelor pentru organizația dumneavoastră prin stocarea tuturor formatelor de date (inclusiv date brute) într-o singură locație. Prin eliminarea silozurilor de date, utilizatorii pot folosi instrumente precum Azure Data Explorer pentru a accesa și lucra cu fiecare element de date din contul lor de stocare.
Activați asimilarea și stocarea datelor în timp real. Azure Data Lake Storage poate prelua date în timp real direct dintr-o instanță a Apache Storm pe Azure HDInsight, Azure IoT Hub, Azure Event Hubs sau Azure Stream Analytics. De asemenea, funcționează cu date semistructurate și vă permite să ingerați toate datele în timp real în contul de stocare.

Lucruri de luat în considerare atunci când alegi Azure Blob Storage sau Azure Data Lake

Tabelul următor compară criteriile soluțiilor de stocare pentru utilizarea Azure Blob Storage față de Azure Data Lake. Revizuiți criteriile și luați în considerare ce soluție este optimă pentru comercianții Tailwind.

Compara Azure Data Lake Azure Blob Storage
Tipuri de date Bun pentru stocarea unor volume mari de date text Bun pentru stocarea datelor nestructurate bazate pe non-text, cum ar fi fotografii, videoclipuri și copii de rezervă
Redundanță geografică Trebuie să configurați manual replicarea datelor Oferă spațiu de stocare geo-redundant în mod implicit
Spații de nume Acceptă spații de nume ierarhice Acceptă spații de nume plate
Compatibilitate Hadoop Serviciile Hadoop pot folosi datele stocate în Azure Data Lake Prin utilizarea driverului Azure Blob Filesystem, aplicațiile și framework-urile pot accesa datele din Azure Blob Storage
Securitate Suportă acces granular Accesul granular nu este acceptat

Sfat

Află mai multe cu antrenamente în ritm propriu, Introducere în Azure Data Lake Storage Gen2.