Wat is Azure Databricks?
Azure Databricks is een geïntegreerd open analyseplatform voor het bouwen, implementeren, delen en onderhouden van hoogwaardige gegevens, analyses en AI-oplossingen op schaal. Het Databricks Data Intelligence Platform kan worden geïntegreerd met cloudopslag en -beveiliging in uw cloudaccount, en beheert en implementeert namens u de cloudinfrastructuur.
Hoe werkt een data intelligence-platform?
Azure Databricks maakt gebruik van generatieve AI met data lakehouse om inzicht te hebben in de unieke semantiek van uw gegevens. Vervolgens worden de prestaties automatisch geoptimaliseerd en wordt de infrastructuur beheerd zodat deze voldoet aan de behoeften van uw bedrijf.
Verwerking van natuurlijke taal leert de taal van uw bedrijf, zodat u gegevens kunt zoeken en ontdekken door een vraag in uw eigen woorden te stellen. Hulp bij natuurlijke taal helpt u bij het schrijven van code, het oplossen van fouten en het vinden van antwoorden in documentatie.
Ten slotte kunnen uw gegevens en AI-toepassingen vertrouwen op sterk beheer en beveiliging. U kunt API's zoals OpenAI integreren zonder afbreuk te doen aan gegevensprivacy en IP-beheer.
Waarvoor wordt Azure Databricks gebruikt?
Azure Databricks biedt hulpprogramma's waarmee u uw gegevensbronnen kunt verbinden met één platform om gegevenssets te verwerken, op te slaan, te delen, te analyseren, te modelleren en geld te verdienen met oplossingen van BI tot generatieve AI.
De Azure Databricks-werkruimte biedt een geïntegreerde interface en hulpprogramma's voor de meeste gegevenstaken, waaronder:
- Planning en beheer van gegevensverwerking, met name ETL
- Dashboards en visualisaties genereren
- Beveiliging, governance, hoge beschikbaarheid en herstel na noodgevallen beheren
- Gegevensdetectie, aantekeningen en verkenning
- Machine learning -modellering, -tracering en -modelverdiening (ML)
- Generatieve AI-oplossingen
Beheerde integratie met open source
Databricks heeft een sterke inzet voor de opensource-community. Databricks beheert updates van opensource-integraties in de Databricks Runtime-releases. De volgende technologieën zijn opensource-projecten die oorspronkelijk zijn gemaakt door Databricks-medewerkers:
Hulpprogramma's en programmatische toegang
Azure Databricks onderhoudt een aantal eigen hulpprogramma's die deze technologieën integreren en uitbreiden om geoptimaliseerde prestaties en gebruiksgemak toe te voegen, zoals de volgende:
Naast de gebruikersinterface van de werkruimte kunt u programmatisch communiceren met Azure Databricks met de volgende hulpprogramma's:
- REST-API
- CLI
- Terraform
Hoe werkt Azure Databricks met Azure?
De Platformarchitectuur van Azure Databricks bestaat uit twee primaire onderdelen:
- De infrastructuur die door Azure Databricks wordt gebruikt voor het implementeren, configureren en beheren van het platform en de services.
- De infrastructuur die eigendom is van de klant die wordt beheerd in samenwerking door Azure Databricks en uw bedrijf.
In tegenstelling tot veel zakelijke gegevensbedrijven dwingt Azure Databricks u niet uw gegevens te migreren naar bedrijfseigen opslagsystemen om het platform te gebruiken. In plaats daarvan configureert u een Azure Databricks-werkruimte door beveiligde integraties te configureren tussen het Azure Databricks-platform en uw cloudaccount. Vervolgens implementeert Azure Databricks rekenclusters met behulp van cloudresources in uw account om gegevens te verwerken en op te slaan in objectopslag en andere geïntegreerde services die u beheert.
Unity Catalog breidt deze relatie verder uit, zodat u machtigingen kunt beheren voor toegang tot gegevens met behulp van vertrouwde SQL-syntaxis vanuit Azure Databricks.
Azure Databricks-werkruimten voldoen aan de beveiligings- en netwerkvereisten van enkele van de grootste en meest beveiligingsgerichte bedrijven ter wereld. Met Azure Databricks kunnen nieuwe gebruikers eenvoudig aan de slag op het platform. Het verwijdert veel van de lasten en zorgen over het werken met cloudinfrastructuur, zonder de aanpassingen te beperken en ervaren gegevens, bewerkingen en beveiligingsteams te beperken.
Wat zijn veelvoorkomende use cases voor Azure Databricks?
Gebruiksvoorbeelden in Azure Databricks zijn zo gevarieerd als de gegevens die op het platform worden verwerkt en de vele persona's van werknemers die met gegevens werken als een belangrijk onderdeel van hun taak. In de volgende gebruiksvoorbeelden ziet u hoe gebruikers in uw organisatie azure Databricks kunnen gebruiken om taken uit te voeren die essentieel zijn voor het verwerken, opslaan en analyseren van de gegevens die essentiële bedrijfsfuncties en beslissingen bepalen.
Een data lakehouse voor ondernemingen bouwen
Data Lakehouse combineert de sterke punten van datawarehouses en data lakes voor ondernemingen om zakelijke gegevensoplossingen te versnellen, te vereenvoudigen en te combineren. Data engineers, data scientists, analisten en productiesystemen kunnen allemaal data lakehouse gebruiken als één bron van waarheid, zodat ze tijdig toegang hebben tot consistente gegevens en de complexiteit van het bouwen, onderhouden en synchroniseren van veel gedistribueerde gegevenssystemen verminderen. Zie Wat is een Data Lakehouse?
ETL en data engineering
Of u nu dashboards genereert of kunstmatige intelligentie-toepassingen mogelijk maakt, data engineering biedt de backbone voor gegevensgerichte bedrijven door ervoor te zorgen dat gegevens beschikbaar, schoon en opgeslagen zijn in gegevensmodellen die efficiënt kunnen worden gedetecteerd en gebruikt. Azure Databricks combineert de kracht van Apache Spark met Delta Lake en aangepaste hulpprogramma's om een ongeëvenaarde ETL-ervaring (extract, transform, load) te bieden. U kunt SQL, Python en Scala gebruiken om ETL-logica samen te stellen en vervolgens met slechts een paar klikken geplande taakimplementatie te organiseren.
Delta Live Tables vereenvoudigt ETL nog verder door op intelligente wijze afhankelijkheden tussen gegevenssets te beheren en automatisch productie-infrastructuur te implementeren en te schalen om ervoor te zorgen dat gegevens tijdig en nauwkeurig worden geleverd volgens uw specificaties.
Azure Databricks biedt een aantal aangepaste hulpprogramma's voor gegevensopname, waaronder Automatisch laden, een efficiënt en schaalbaar hulpprogramma voor incrementeel en idempotent laden van gegevens uit de opslag van cloudobjecten en data lakes in data lakehouse.
Machine learning, AI en data science
Azure Databricks machine learning breidt de kernfunctionaliteit van het platform uit met een reeks hulpprogramma's die zijn afgestemd op de behoeften van gegevenswetenschappers en ML-technici, waaronder MLflow en Databricks Runtime voor Machine Learning.
Grote taalmodellen en generatieve AI
Databricks Runtime voor Machine Learning bevat bibliotheken zoals Hugging Face Transformers waarmee u bestaande vooraf getrainde modellen of andere opensourcebibliotheken in uw werkstroom kunt integreren. De Integratie van Databricks MLflow maakt het eenvoudig om de MLflow-traceringsservice te gebruiken met transformatorpijplijnen, modellen en verwerkingsonderdelen. Daarnaast kunt u OpenAI-modellen of -oplossingen integreren van partners zoals John Snow Labs in uw Databricks-werkstromen.
Met Azure Databricks kunt u een LLM op uw gegevens aanpassen voor uw specifieke taak. Met de ondersteuning van opensource-hulpprogramma's, zoals Hugging Face en DeepSpeed, kunt u efficiënt een basis-LLM nemen en beginnen met training met uw eigen gegevens om meer nauwkeurigheid te hebben voor uw domein en workload.
Daarnaast biedt Azure Databricks AI-functies die SQL-gegevensanalisten kunnen gebruiken voor toegang tot LLM-modellen, waaronder vanuit OpenAI, rechtstreeks in hun gegevenspijplijnen en -werkstromen. Zie AI-functies in Azure Databricks.
Datawarehousing, analyses en BI
Azure Databricks combineert gebruiksvriendelijke UIS's met rendabele rekenresources en oneindig schaalbare, betaalbare opslag om een krachtig platform te bieden voor het uitvoeren van analysequery's. Beheerders configureren schaalbare rekenclusters als SQL-warehouses, zodat eindgebruikers query's kunnen uitvoeren zonder dat ze zich zorgen hoeven te maken over de complexiteit van het werken in de cloud. SQL-gebruikers kunnen query's uitvoeren op gegevens in lakehouse met behulp van de SQL-queryeditor of in notebooks. Notebooks ondersteunen Python, R en Scala naast SQL en bieden gebruikers de mogelijkheid om dezelfde visualisaties in te sluiten die beschikbaar zijn in verouderde dashboards, naast koppelingen, afbeeldingen en commentaar die zijn geschreven in Markdown.
Gegevensbeheer en gegevens delen beveiligen
Unity Catalog biedt een geïntegreerd model voor gegevensbeheer voor data lakehouse. Cloudbeheerders configureren en integreren grof toegangsbeheermachtigingen voor Unity Catalog en vervolgens kunnen Azure Databricks-beheerders machtigingen voor teams en personen beheren. Bevoegdheden worden beheerd met toegangsbeheerlijsten (ACL's) via gebruiksvriendelijke UIS's of SQL-syntaxis, waardoor databasebeheerders de toegang tot gegevens gemakkelijker kunnen beveiligen zonder dat ze hoeven te schalen op cloudeigen IAM (Identity Access Management) en netwerken.
Unity Catalog maakt het uitvoeren van beveiligde analyses in de cloud eenvoudig en biedt een verdeling van verantwoordelijkheid waarmee u de herskilling of upskilling kunt beperken die nodig is voor zowel beheerders als eindgebruikers van het platform. Bekijk Wat is Unity Catalog?
Het lakehouse maakt het delen van gegevens binnen uw organisatie net zo eenvoudig als het verlenen van querytoegang tot een tabel of weergave. Voor delen buiten uw beveiligde omgeving biedt Unity Catalog een beheerde versie van Delta Sharing.
DevOps, CI/CD en taakindeling
De ontwikkelingslevenscycli voor ETL-pijplijnen, ML-modellen en analysedashboards bieden elk hun eigen unieke uitdagingen. Met Azure Databricks kunnen al uw gebruikers gebruikmaken van één gegevensbron, waardoor dubbele inspanningen en out-of-sync-rapportage worden verminderd. Door daarnaast een reeks veelgebruikte hulpprogramma's te bieden voor versiebeheer, automatisering, planning, het implementeren van code en productieresources, kunt u uw overhead voor bewaking, indeling en bewerkingen vereenvoudigen. Taken plannen Azure Databricks-notebooks, SQL-query's en andere willekeurige code. Met Git-mappen kunt u Azure Databricks-projecten synchroniseren met een aantal populaire Git-providers. Zie Hulpprogramma's voor ontwikkelaars voor een volledig overzicht van hulpprogramma's.
Realtime- en streaminganalyses
Azure Databricks maakt gebruik van Apache Spark Structured Streaming om te werken met streaminggegevens en incrementele gegevenswijzigingen. Structured Streaming integreert nauw met Delta Lake en deze technologieën bieden de basis voor zowel Delta Live Tables als Auto Loader. Zie Streaming op Azure Databricks.