Co je Azure Databricks?

Azure Databricks je jednotná, otevřená analytická platforma pro sestavování, nasazování, sdílení a údržbu podnikových dat, analýz a řešení AI ve velkém měřítku. Platforma Databricks Data Intelligence se integruje s cloudovým úložištěm a zabezpečením ve vašem cloudovém účtu a spravuje a nasazuje cloudovou infrastrukturu vaším jménem.

Jak funguje platforma datové inteligence?

Azure Databricks používá generování umělé inteligence s data lakehousem k pochopení jedinečné sémantiky vašich dat. Pak automaticky optimalizuje výkon a spravuje infrastrukturu tak, aby odpovídala vašim obchodním potřebám.

Zpracování přirozeného jazyka se učí jazyk vaší firmy, takže můžete vyhledávat a objevovat data tak, že položíte otázku vlastním slovem. Pomoc s přirozeným jazykem vám pomůže psát kód, řešit chyby a najít odpovědi v dokumentaci.

A konečně, vaše data a aplikace umělé inteligence můžou spoléhat na silné zásady správného řízení a zabezpečení. Můžete integrovat rozhraní API, jako je OpenAI, aniž byste ovlivnili ochranu osobních údajů a řízení IP adres.

K čemu se Azure Databricks používá?

Azure Databricks poskytuje nástroje, které vám pomůžou připojit zdroje dat k jedné platformě pro zpracování, ukládání, sdílení, analýzu, modelování a zpeněžení datových sad s řešeními z BI a generování umělé inteligence.

Pracovní prostor Azure Databricks poskytuje jednotné rozhraní a nástroje pro většinu úloh s daty, mezi které patří:

  • Plánování a správa zpracování dat, zejména ETL
  • Generování řídicích panelů a vizualizací
  • Správa zabezpečení, zásad správného řízení, vysoké dostupnosti a zotavení po havárii
  • Zjišťování, poznámky a zkoumání dat
  • Modelování, sledování a obsluha modelů strojového učení (ML)
  • Generování řešení umělé inteligence

Spravovaná integrace s open source

Databricks má silný závazek opensourcové komunity. Databricks spravuje aktualizace opensourcových integrací ve verzích Databricks Runtime. Následující technologie jsou opensourcové projekty, které původně vytvořili zaměstnanci Databricks:

Nástroje a programový přístup

Azure Databricks udržuje řadu proprietárních nástrojů, které integrují a rozšiřují tyto technologie, aby se přidal optimalizovaný výkon a snadné použití, například následující:

Kromě uživatelského rozhraní pracovního prostoru můžete s Azure Databricks pracovat programově pomocí následujících nástrojů:

  • REST API
  • Rozhraní příkazového řádku
  • Terraform

Jak Azure Databricks funguje s Azure?

Architektura platformy Azure Databricks se skládá ze dvou primárních částí:

  • Infrastruktura používaná službou Azure Databricks k nasazení, konfiguraci a správě platformy a služeb.
  • Infrastruktura vlastněná zákazníkem spravovaná ve spolupráci pomocí Azure Databricks a vaší společnosti.

Na rozdíl od mnoha podnikových datových společností azure Databricks nevynucuje migraci dat do vlastních systémů úložiště pro použití této platformy. Místo toho nakonfigurujete pracovní prostor Azure Databricks tak, že nakonfigurujete zabezpečené integrace mezi platformou Azure Databricks a vaším cloudovým účtem a pak Azure Databricks nasadí výpočetní clustery pomocí cloudových prostředků ve vašem účtu ke zpracování a ukládání dat v úložišti objektů a dalších integrovaných službách, které řídíte.

Katalog Unity tento vztah dále rozšiřuje a umožňuje spravovat oprávnění pro přístup k datům pomocí známé syntaxe SQL z Azure Databricks.

Pracovní prostory Azure Databricks splňují požadavky na zabezpečení a sítě některých největších a většiny společností z celého světa. Azure Databricks usnadňuje novým uživatelům začít na platformě. Odstraňuje řadu zátěží a obav z práce s cloudovou infrastrukturou, aniž by omezoval přizpůsobení a řízení zkušených dat, operací a týmů zabezpečení.

Jaké jsou běžné případy použití pro Azure Databricks?

Případy použití v Azure Databricks jsou stejně různé jako data zpracovávaná na platformě a mnoho osob zaměstnanců, kteří pracují s daty jako základní součást jejich práce. Následující případy použití ukazují, jak můžou uživatelé ve vaší organizaci využívat Azure Databricks k provádění úloh nezbytných ke zpracování, ukládání a analýze dat, která řídí důležité obchodní funkce a rozhodnutí.

Sestavení podnikového datového jezerahouse

Data Lakehouse kombinuje silné stránky podnikových datových skladů a datových jezer k urychlení, zjednodušení a sjednocení podnikových datových řešení. Datoví inženýři, datoví vědci, analytici a produkční systémy můžou datové jezero používat jako jediný zdroj pravdy, což umožňuje včasný přístup k konzistentním datům a snížení složitosti vytváření, údržby a synchronizace mnoha distribuovaných datových systémů. Podívejte se, co je datové jezero?

ETL a příprava dat

Ať už generujete řídicí panely nebo powering aplikací umělé inteligence, poskytuje datová příprava páteř pro společnosti zaměřené na data tím, že zajišťuje dostupnost, čištění a ukládání dat v datových modelech, které umožňují efektivní zjišťování a použití. Azure Databricks kombinuje výkon Apache Sparku s Delta Lake a vlastními nástroji, které poskytují nehodnocené prostředí ETL (extrakce, transformace a načítání). Pomocí SQL, Pythonu a Scaly můžete vytvořit logiku ETL a pak orchestrovat naplánované nasazení úlohy několika kliknutími.

Delta Live Tables ještě více zjednodušuje ETL inteligentní správou závislostí mezi datovými sadami a automatickým nasazováním a škálováním produkční infrastruktury, aby bylo zajištěno včasné a přesné doručování dat podle vašich specifikací.

Azure Databricks poskytuje řadu vlastních nástrojů pro příjem dat, včetně automatického zavaděče, efektivního a škálovatelného nástroje pro přírůstkové a idempotentní načítání dat z úložiště cloudových objektů a datových jezer do datového jezera.

Strojové učení, AI a datové vědy

Strojové učení Azure Databricks rozšiřuje základní funkce platformy o sadu nástrojů přizpůsobených potřebám odborníků na data a techniků ML, včetně MLflow a Databricks Runtime pro machine Učení.

Velké jazykové modely a generující AI

Databricks Runtime pro machine Učení zahrnuje knihovny, jako je Hugging Face Transformers, které umožňují integrovat existující předem natrénované modely nebo jiné opensourcové knihovny do pracovního postupu. Integrace Databricks MLflow usnadňuje používání služby sledování MLflow s transformátorovými kanály, modely a komponentami zpracování. Kromě toho můžete integrovat modely OpenAI nebo řešení od partnerů, jako je John Snow Labs , do pracovních postupů Databricks.

Pomocí Azure Databricks můžete přizpůsobit LLM pro vaše data pro konkrétní úlohu. Díky podpoře opensourcových nástrojů, jako je Hugging Face a DeepSpeed, můžete efektivně využít základní LLM a začít trénovat s vlastními daty, abyste měli větší přesnost pro vaši doménu a úlohu.

Kromě toho Azure Databricks poskytuje funkce AI, které můžou datoví analytici SQL použít pro přístup k modelům LLM, včetně openAI, přímo v rámci svých datových kanálů a pracovních postupů. Viz funkce AI v Azure Databricks.

Datové sklady, analýzy a BI

Azure Databricks kombinuje uživatelsky přívětivé uživatelské rozhraní s nákladově efektivními výpočetními prostředky a neomezeně škálovatelné a cenově dostupné úložiště, které poskytuje výkonnou platformu pro spouštění analytických dotazů. Správa istrátory konfigurují škálovatelné výpočetní clustery jako Sql Warehouses, které koncovým uživatelům umožňují spouštět dotazy, aniž by se museli starat o složitost práce v cloudu. Uživatelé SQL můžou spouštět dotazy na data v lakehouse pomocí editoru dotazů SQL nebo v poznámkových blocích. Poznámkové bloky podporují kromě SQL také Python, R a Scala a umožňují uživatelům vkládat stejné vizualizace , které jsou k dispozici na starších řídicích panelech, spolu s odkazy , obrázky a komentáři napsané v markdownu.

Zásady správného řízení dat a zabezpečené sdílení dat

Katalog Unity poskytuje jednotný model zásad správného řízení dat pro datové jezero. Správci cloudu konfigurují a integrují hrubá oprávnění řízení přístupu pro Katalog Unity a správci Azure Databricks můžou spravovat oprávnění pro týmy a jednotlivce. Oprávnění se spravují pomocí seznamů řízení přístupu (ACL) prostřednictvím uživatelsky přívětivých uživatelských rozhraní nebo syntaxe SQL, což správcům databází usnadňuje zabezpečení přístupu k datům, aniž by museli škálovat správu přístupu k identitám nativním pro cloud (IAM) a sítě.

Služba Unity Catalog usnadňuje spouštění zabezpečených analýz v cloudu a poskytuje oddělení odpovědnosti, které pomáhá omezit dovednosti nebo dovednosti nezbytné pro správce i koncové uživatele platformy. Viz téma Co je katalog Unity?.

Lakehouse umožňuje sdílení dat v rámci vaší organizace stejně jednoduché jako udělení přístupu k dotazu do tabulky nebo zobrazení. Pro sdílení mimo vaše zabezpečené prostředí obsahuje Katalog Unity spravovanou verzi rozdílového sdílení.

DevOps, CI/CD a orchestrace úloh

Životní cyklus vývoje pro kanály ETL, modely ML a analytické řídicí panely představují své vlastní jedinečné výzvy. Azure Databricks umožňuje všem uživatelům využívat jeden zdroj dat, což snižuje duplicitní úsilí a generování sestav mimo synchronizaci. Kromě toho poskytuje sadu běžných nástrojů pro správu verzí, automatizaci, plánování, nasazování kódu a produkčních prostředků, můžete zjednodušit režii při monitorování, orchestraci a operacích. Pracovní postupy plánují poznámkové bloky Azure Databricks, dotazy SQL a další libovolný kód. Složky Git umožňují synchronizovat projekty Azure Databricks s několika oblíbenými poskytovateli Gitu. Úplný přehled nástrojů najdete v tématu Vývojářské nástroje a pokyny.

Analýza streamování a analýzy v reálném čase

Azure Databricks využívá strukturované streamování Apache Sparku k práci se streamovanými daty a přírůstkovými změnami dat. Strukturované streamování se úzce integruje s Delta Lake a tyto technologie poskytují základy pro rozdílové živé tabulky i automatické zavaděče. Viz Streamování v Azure Databricks.