Proiectează o soluție de integrare a datelor și analiză cu Azure Databricks

8 minute

Azure Databricks este o platformă Big Data și Machine Learning complet gestionată, bazată pe cloud, care permite dezvoltatorilor să accelereze AI și inovația. Azure Databricks oferă echipelor de știința datelor și inginerie o platformă unică pentru procesarea big data și Machine Learning. Platforma Apache Spark gestionată de Azure Databricks face simplă rularea sarcinilor de lucru Spark la scară largă.

Lucruri de știut despre Azure Databricks

Azure Databricks se bazează în întregime pe Apache Spark și este un instrument excelent pentru utilizatorii care sunt deja familiarizați cu cadrul open-source de cluster-computing. Databricks este conceput special pentru procesarea big data. Data Scientists pot profita de API-ul de bază încorporat pentru limbaje de bază precum SQL, Java, Python, R și Scala.

Azure Databricks are un plan Control și un plan Compute:

Plan de control: găzduiește lucrări Databricks, blocnotesuri cu rezultate de interogare și managerul de cluster. Planul de control conține, de asemenea, aplicația web, listele de control al accesului de securitate (ACL-uri) și sesiunile utilizatorilor. Microsoft gestionează aceste componente în colaborare cu Azure Databricks.
Compute Plane: Conține toate clusterele Azure Databricks runtime găzduite în spațiul de lucru. Toată prelucrarea și stocarea datelor există în cadrul abonamentului clientului.

Azure Databricks oferă trei medii pentru dezvoltarea aplicațiilor intensive în date.

Databricks SQL: Azure Databricks SQL oferă o platformă ușor de folosit pentru analiștii care doresc să ruleze interogări SQL pe data lake-ul lor. Puteți crea mai multe tipuri de vizualizare pentru a explora rezultatele interogării din diferite perspective și pentru a construi și partaja tablouri de bord.
Databricks Știința Datelor & Știința Datelor Inginerie: Azure Databricks Știința Datelor & Ingineria permite echipelor de date să lucreze împreună într-un spațiu de lucru interactiv. Datele sunt aduse în Azure prin instrumente batch sau în timp real precum Azure Data Factory, Kafka, Event Hubs sau IoT Hub. Datele sunt stocate în Azure Blob Storage sau Data Lake Storage. Databricks citește date din aceste surse și folosește Spark pentru a genera informații.
Databricks Machine Learning: Azure Databricks Machine Learning este un mediu integrat de machine learning end-to-end. Încorporează servicii gestionate pentru urmărirea experimentelor, antrenarea modelelor, dezvoltarea și gestionarea caracteristicilor și servirea caracteristicilor și modelelor.

Scenariu de business

Să analizăm un scenariu pentru Tailwind Traders din divizia de producție de mașini grele. Tailwind Traders folosește serviciile cloud Azure pentru nevoile lor de big data. Lucrează atât cu date în lot, cât și cu date de streaming. Divizia angajează ingineri de date, oameni de știință de date și analiști de date care colaborează pentru a produce rapoarte rapide și perspicace pentru multe părți interesate. Pentru a îndeplini cerințele big data, plănuiești să recomanzi Azure Databricks și să implementezi mediul de Știință și Inginerie a Datelor.

Să analizăm de ce Azure Databricks poate fi alegerea potrivită pentru a îndeplini aceste cerințe.

Azure Databricks este un spațiu de lucru de analiză construit pe Apache Spark.
Susține colaborarea și gestionează atât date structurate, cât și în streaming.
Se integrează cu unelte în timp real precum Kafka și Flume.
Permite utilizatorilor să lucreze cu Python, Scala sau R.
Se conectează la baze de date Azure și soluții de stocare, satisfăcând nevoile de big data.
Funcționează cu Power BI pentru informații rapide.
Databricks SQL și Machine Learning nu sunt potrivite aici, deoarece datele nestructurate și machine learning nu sunt necesare.

Lucruri de luat în considerare când folosești Azure Databricks

Poți folosi Azure Databricks ca soluție pentru mai multe scenarii. Luați în considerare modul în care serviciul poate beneficia de soluția de integrare a datelor pentru comercianții Tailwind.

Luați în considerare pregătirea datelor pentru știința datelor. Creați, clonați și editați clustere de date complexe, nestructurate. Transformați clusterele de date în locuri de muncă specifice. Livrați rezultatele cercetătorilor de date și analiștilor de date pentru revizuire.
Luați în considerare detaliile din date. Implementează Azure Databricks pentru a construi motoare de recomandare, analiză de churn și detectare a intruziunilor.
Luați în considerare productivitatea echipelor de date și analiză. Creați un mediu de colaborare și spații de lucru partajate pentru inginerii de date, analiștii și oamenii de știință. Echipele pot lucra împreună de-a lungul ciclului de viață al științei datelor cu spații de lucru partajate, ceea ce ajută la economisirea timpului și a resurselor prețioase.
Luați în considerare sarcinile de lucru cu date mari. Folosește Azure Data Lake și motorul pentru a obține cea mai bună performanță și fiabilitate pentru sarcinile tale de big data. Creați conducte de date în mai mulți pași.
Luați în considerare programele de învățare automată. Profitați de mediul integrat de învățare automată end-to-end. Încorporează servicii gestionate pentru urmărirea experimentelor, antrenarea modelelor, dezvoltarea și gestionarea caracteristicilor și servirea caracteristicilor și modelelor.

Sfat

Aflați mai multe cu antrenamente în ritm propriu, Explorați Azure Databricks.

Feedback

Această pagină a fost utilă?