Delen via


Wat is Azure Databricks?

Azure Databricks is een geïntegreerd open analyseplatform voor het bouwen, implementeren, delen en onderhouden van hoogwaardige gegevens, analyses en AI-oplossingen op schaal. Het Databricks Data Intelligence Platform kan worden geïntegreerd met cloudopslag en -beveiliging in uw cloudaccount en beheert en implementeert de cloudinfrastructuur voor u.

Databricks Data Intelligence-platform

Azure Databricks maakt gebruik van generatieve AI met data lakehouse om inzicht te hebben in de unieke semantiek van uw gegevens. Vervolgens worden de prestaties automatisch geoptimaliseerd en wordt de infrastructuur beheerd zodat deze voldoet aan de behoeften van uw bedrijf.

Verwerking van natuurlijke taal leert de taal van uw bedrijf, zodat u gegevens kunt zoeken en ontdekken door een vraag in uw eigen woorden te stellen. Hulp bij natuurlijke taal helpt u bij het schrijven van code, het oplossen van fouten en het vinden van antwoorden in documentatie.

Beheerde opensource-integratie

Databricks streeft naar de opensource-community en beheert updates van opensource-integraties met de Databricks Runtime-releases. De volgende technologieën zijn opensource-projecten die oorspronkelijk zijn gemaakt door Databricks-medewerkers:

Veelvoorkomende gebruiksvoorbeelden

In de volgende gebruiksvoorbeelden worden enkele van de manieren beschreven waarop klanten Azure Databricks gebruiken om taken uit te voeren die essentieel zijn voor het verwerken, opslaan en analyseren van de gegevens die essentiële bedrijfsfuncties en beslissingen bepalen.

Een data lakehouse voor ondernemingen bouwen

Data Lakehouse combineert zakelijke datawarehouses en data lakes om zakelijke gegevensoplossingen te versnellen, te vereenvoudigen en te combineren. Data engineers, data scientists, analisten en productiesystemen kunnen allemaal data lakehouse gebruiken als één bron van waarheid, waardoor toegang wordt geboden tot consistente gegevens en de complexiteit van het bouwen, onderhouden en synchroniseren van veel gedistribueerde gegevenssystemen wordt verminderd. Zie Wat is een Data Lakehouse?

ETL en gegevensengineering

Of u nu dashboards genereert of kunstmatige intelligentie-toepassingen mogelijk maakt, data engineering biedt de backbone voor gegevensgerichte bedrijven door ervoor te zorgen dat gegevens beschikbaar zijn, schoon en opgeslagen in gegevensmodellen voor efficiënte detectie en gebruik. Azure Databricks combineert de kracht van Apache Spark met Delta en aangepaste hulpprogramma's om een ongeëvenaarde ETL-ervaring te bieden. Gebruik SQL, Python en Scala om ETL-logica samen te stellen en geplande taakimplementatie met een paar klikken in te delen.

Declaratieve pijplijnen van Lakeflow vereenvoudigt ETL verder door op intelligente wijze afhankelijkheden tussen gegevenssets te beheren en automatisch productie-infrastructuur te implementeren en te schalen om ervoor te zorgen dat gegevens tijdig en nauwkeurig aan uw specificaties worden geleverd.

Azure Databricks biedt hulpprogramma's voor gegevensopname, waaronder Auto Loader, een efficiënt en schaalbaar hulpprogramma voor incrementeel en idempotent laden van gegevens uit cloudobjectopslag en data lakes in de data lakehouse.

Machine learning, kunstmatige intelligentie en data science

Azure Databricks machine learning breidt de kernfunctionaliteit van het platform uit met een reeks hulpprogramma's die zijn afgestemd op de behoeften van gegevenswetenschappers en ML-technici, waaronder MLflow en Databricks Runtime voor Machine Learning.

Grote taalmodellen en generatieve AI

Databricks Runtime voor Machine Learning bevat bibliotheken zoals Hugging Face Transformers waarmee u bestaande vooraf getrainde modellen of andere opensourcebibliotheken in uw werkstroom kunt integreren. De Integratie van Databricks MLflow maakt het eenvoudig om de MLflow-traceringsservice te gebruiken met transformatorpijplijnen, modellen en verwerkingsonderdelen. Integreer OpenAI-modellen of -oplossingen van partners zoals John Snow Labs in uw Databricks-werkstromen.

Met Azure Databricks past u een LLM aan op uw gegevens voor uw specifieke taak. Met de ondersteuning van opensource-hulpprogramma's, zoals Hugging Face en DeepSpeed, kunt u efficiënt een basis-LLM nemen en beginnen met training met uw eigen gegevens voor meer nauwkeurigheid voor uw domein en workload.

Daarnaast biedt Azure Databricks AI-functies die SQL-gegevensanalisten kunnen gebruiken voor toegang tot LLM-modellen, waaronder vanuit OpenAI, rechtstreeks in hun gegevenspijplijnen en -werkstromen. Zie AI toepassen op gegevens met behulp van Azure Databricks AI Functions.

Datawarehousing, analyses en bedrijfsinformatie

Azure Databricks combineert gebruiksvriendelijke UIS's met rendabele rekenresources en oneindig schaalbare, betaalbare opslag om een krachtig platform te bieden voor het uitvoeren van analysequery's. Beheerders configureren schaalbare rekenclusters als SQL-warehouses, zodat eindgebruikers query's kunnen uitvoeren zonder dat ze zich zorgen hoeven te maken over de complexiteit van het werken in de cloud. SQL-gebruikers kunnen query's uitvoeren op gegevens in de lakehouse met behulp van de SQL-queryeditor of in de notebooks. Notebooks ondersteunen Python, R en Scala naast SQL en bieden gebruikers de mogelijkheid om dezelfde visualisaties in te sluiten die beschikbaar zijn in verouderde dashboards, naast koppelingen, afbeeldingen en commentaar die zijn geschreven in Markdown.

Gegevensbeheer en gegevens delen beveiligen

Unity Catalog biedt een geïntegreerd model voor gegevensbeheer voor data lakehouse. Cloudbeheerders configureren en integreren grof toegangsbeheermachtigingen voor Unity Catalog en vervolgens kunnen Azure Databricks-beheerders machtigingen voor teams en personen beheren. Bevoegdheden worden beheerd met toegangsbeheerlijsten (ACL's) via gebruiksvriendelijke UIS's of SQL-syntaxis, waardoor databasebeheerders de toegang tot gegevens gemakkelijker kunnen beveiligen zonder dat ze hoeven te schalen op cloudeigen IAM (Identity Access Management) en netwerken.

Unity Catalog maakt het uitvoeren van beveiligde analyses in de cloud eenvoudig en biedt een verdeling van verantwoordelijkheid waarmee u de herskilling of upskilling kunt beperken die nodig is voor zowel beheerders als eindgebruikers van het platform. Zie Wat is Unity Catalog?.

Het lakehouse maakt het delen van gegevens binnen uw organisatie net zo eenvoudig als het verlenen van querytoegang tot een tabel of weergave. Voor delen buiten uw beveiligde omgeving biedt Unity Catalog een beheerde versie van Delta Sharing.

DevOps, CI/CD en taakindeling

De ontwikkelingslevenscycli voor ETL-pijplijnen, ML-modellen en analysedashboards bieden elk hun eigen unieke uitdagingen. Met Azure Databricks kunnen al uw gebruikers gebruikmaken van één gegevensbron, waardoor dubbele inspanningen en out-of-sync-rapportage worden verminderd. Door daarnaast een reeks veelgebruikte hulpprogramma's te bieden voor versiebeheer, automatisering, planning, het implementeren van code en productieresources, kunt u uw overhead voor bewaking, indeling en bewerkingen vereenvoudigen.

Taken plannen Azure Databricks-notebooks, SQL-queries en andere willekeurige code. Met Databricks Asset Bundles kunt u Databricks-resources zoals taken en pijplijnen programmatisch definiëren, implementeren en uitvoeren. Git-mappen kunt u Azure Databricks-projecten synchroniseren met een aantal populaire Git-providers.

Zie Best practices en aanbevolen CI/CD-werkstromen op Databricks voor best practices en aanbevelingen voor CI/CD. Zie Ontwikkelen op Databricks voor een volledig overzicht van hulpprogramma's voor ontwikkelaars.

Realtime- en streaminganalyse

Azure Databricks maakt gebruik van Apache Spark Structured Streaming om te werken met streaminggegevens en incrementele gegevenswijzigingen. Structured Streaming integreert nauw met Delta Lake en deze technologieën bieden de basis voor zowel Lakeflow Declarative Pipelines als Auto Loader. Zie de concepten van gestructureerde streaming.