Een gegevensintegratie- en analyseoplossing ontwerpen met Azure Databricks

8 minuten

Azure Databricks is een volledig beheerd big data- en Machine Learning-platform in de cloud, waarmee ontwikkelaars AI en innovatie kunnen versnellen. Azure Databricks biedt data science- en engineeringteams één platform voor de verwerking van big data en Machine Learning. Het Azure Databricks beheerde Apache Spark-platform maakt het eenvoudig om grootschalige Spark-workloads uit te voeren.

Dingen die u moet weten over Azure Databricks

Azure Databricks is volledig gebaseerd op Apache Spark en het is een uitstekend hulpprogramma voor gebruikers die al bekend zijn met het opensource-framework voor clustercomputing. Databricks is speciaal ontworpen voor verwerking van big data. Gegevenswetenschappers kunnen profiteren van de ingebouwde kern-API voor kerntalen zoals SQL, Java, Python, R en Scala.

Azure Databricks heeft een besturingsvlak en een rekenvlak:

Besturingsvlak: Beheert Databricks-taken, notebooks met queryresultaten en de clusterbeheerder. Het besturingsvlak heeft ook de webtoepassing, toegangsbeheerlijsten (ACL's) voor beveiliging en gebruikerssessies. Microsoft beheert deze onderdelen in samenwerking met Azure Databricks.
Compute Plane: Bevat alle Azure Databricks runtimeclusters die in de werkruimte worden gehost. Alle gegevensverwerking en -opslag bestaan binnen het clientabonnement.

Azure Databricks biedt drie omgevingen voor het ontwikkelen van gegevensintensieve toepassingen.

Databricks SQL: Azure Databricks SQL biedt een gebruiksvriendelijk platform voor analisten die SQL-query's willen uitvoeren op hun data lake. U kunt meerdere visualisatietypen maken om queryresultaten vanuit verschillende perspectieven te verkennen en dashboards te bouwen en te delen.
Databricks Data Science & Engineering: Met Azure Databricks Data Science & Engineering kunnen datateams samenwerken in een interactieve werkruimte. Gegevens worden in Azure gebracht via batch- of realtimehulpprogramma's zoals Azure Data Factory, Kafka, Event Hubs of IoT Hub. Gegevens worden opgeslagen in Azure Blob Storage of Data Lake Storage. Databricks leest gegevens uit deze bronnen en gebruikt Spark om inzichten te genereren.
Databricks Machine Learning: Azure Databricks Machine Learning is een geïntegreerde end-to-end-machine learning-omgeving. Het bevat beheerde services voor het bijhouden van experimenten, modeltraining, functieontwikkeling en -beheer, en het leveren van functies en modellen.

Bedrijfsscenario

Laten we een scenario analyseren voor Tailwind Traders in de productieafdeling voor zware machines. Tailwind Traders gebruikt Azure cloudservices voor hun big data-behoeften. Ze werken met zowel batchgegevens als streaminggegevens. De afdeling maakt gebruik van gegevenstechnici, gegevenswetenschappers en gegevensanalisten die samenwerken om snelle inzichtelijke rapportage te produceren voor veel belanghebbenden. Om te voldoen aan de vereisten voor big data, bent u van plan Azure Databricks aan te bevelen en de Data Science and Engineering-omgeving te implementeren.

Laten we eens kijken waarom Azure Databricks de juiste keuze kan zijn om aan deze vereisten te voldoen.

Azure Databricks is een analysewerkruimte die is gebouwd op Apache Spark.
Ondersteunt samenwerking en verwerkt zowel gestructureerde als streaminggegevens.
Integreert met realtime hulpprogramma's zoals Kafka en Flume.
Hiermee kunnen gebruikers met Python, Scala of R werken.
Maakt verbinding met Azure databases en opslagoplossingen om te voldoen aan de behoeften van big data.
Werkt met Power BI voor snelle inzichten.
Databricks SQL en Machine Learning zijn hier niet geschikt, omdat niet-gestructureerde gegevens en machine learning niet nodig zijn.

Aandachtspunten bij het gebruik van Azure Databricks

U kunt Azure Databricks gebruiken als een oplossing voor meerdere scenario's. Bedenk hoe de service kan profiteren van uw oplossing voor gegevensintegratie voor Tailwind Traders.

Overweeg data science-voorbereiding van gegevens. Clusters met complexe, ongestructureerde gegevens maken, klonen en bewerken. Zet de gegevensclusters om in specifieke taken. Lever de resultaten aan gegevenswetenschappers en gegevensanalisten voor beoordeling.
Bekijk inzichten in de gegevens. Implementeer Azure Databricks om aanbevelingsengines, verloopanalyse en inbraakdetectie te bouwen.
Houd rekening met productiviteit in gegevens- en analyseteams. Maak een samenwerkingsomgeving en gedeelde werkruimten voor data engineers, analisten en wetenschappers. Teams kunnen samenwerken in de levenscyclus van data science met gedeelde werkruimten, waardoor u waardevolle tijd en resources kunt besparen.
Overweeg big data-werklasten. Gebruik Azure Data Lake en de engine om de beste prestaties en betrouwbaarheid voor uw big data-workloads te verkrijgen. Zonder gedoe gegevenspijplijnen met meerdere stappen creëren.
Overweeg machine learning-programma's. Profiteer van de geïntegreerde end-to-end machine learning-omgeving. Het bevat beheerde services voor het bijhouden van experimenten, modeltraining, functieontwikkeling en -beheer, en het leveren van functies en modellen.

Aanbeveling

Meer informatie met training in eigen tempo, Explore Azure Databricks.

Feedback

Is deze pagina nuttig?