Sdílet prostřednictvím


Co je Azure Databricks?

Azure Databricks je jednotná, otevřená analytická platforma pro sestavování, nasazování, sdílení a údržbu podnikových dat, analýz a řešení AI ve velkém měřítku. Platforma Databricks Data Intelligence se integruje s cloudovým úložištěm a zabezpečením ve vašem cloudovém účtu a spravuje a nasazuje cloudovou infrastrukturu za vás.

Platforma pro zpracování dat Databricks

Azure Databricks používá generování umělé inteligence s data lakehousem k pochopení jedinečné sémantiky vašich dat. Pak automaticky optimalizuje výkon a spravuje infrastrukturu tak, aby odpovídala vašim obchodním potřebám.

Zpracování přirozeného jazyka se učí jazyk vaší firmy, takže můžete vyhledávat a objevovat data tak, že položíte otázku vlastním slovem. Pomoc s přirozeným jazykem vám pomůže psát kód, řešit chyby a najít odpovědi v dokumentaci.

Spravovaná opensourcová integrace

Databricks se zavazuje k opensourcové komunitě a spravuje aktualizace opensourcových integrací s verzemi Databricks Runtime. Následující technologie jsou opensourcové projekty, které původně vytvořili zaměstnanci Databricks:

Běžné případy použití

Následující případy použití zvýrazňují některé způsoby, jak zákazníci používají Azure Databricks k provádění úloh nezbytných ke zpracování, ukládání a analýze dat, která řídí důležité obchodní funkce a rozhodnutí.

Vytvořit podnikový datový lakehouse

Data Lakehouse kombinuje podnikové datové sklady a datová jezera k urychlení, zjednodušení a sjednocení podnikových datových řešení. Datoví inženýři, datoví vědci, analytici a produkční systémy můžou datové jezero používat jako jediný zdroj pravdy, poskytovat přístup k konzistentním datům a snižovat složitost vytváření, údržby a synchronizace mnoha distribuovaných datových systémů. Podívejte se, co je datové jezero?

ETL a příprava dat

Ať už generujete řídicí panely nebo pohánění aplikací umělé inteligence, poskytuje datové inženýrství základ pro společnosti zaměřené na data tím, že zajišťuje, aby byla data dostupná, čistá a uložená v datových modelech, aby bylo možné efektivně zjišťovat a používat. Azure Databricks kombinuje sílu Apache Sparku s Delta a vlastními nástroji, aby poskytovala nepřekonaný ETL zážitek. Pomocí SQL, Pythonu a Scaly můžete vytvořit logiku ETL a orchestrovat naplánované nasazení úloh několika kliknutími.

Deklarativní kanály Sparku Lakeflow dále zjednodušují ETL inteligentní správou závislostí mezi datovými sadami a automatickým nasazováním a škálováním produkční infrastruktury, aby se zajistilo včasné a přesné doručování dat do vašich specifikací.

Azure Databricks poskytuje nástroje pro příjem dat, včetně Auto Loaderu, efektivního a škálovatelného nástroje pro idempotentní přírůstkové načítání dat z cloudového úložiště objektů a datových jezer do datového lakehouse.

Strojové učení, AI a datové vědy

Strojové učení Azure Databricks rozšiřuje základní funkce platformy o sadu nástrojů přizpůsobených potřebám odborníků na data a techniků ML, včetně MLflow a Databricks Runtime pro Machine Learning.

Velké jazykové modely a generující AI

Databricks Runtime pro Machine Learning zahrnuje knihovny, jako je Hugging Face Transformers , které umožňují integrovat existující předem natrénované modely nebo jiné opensourcové knihovny do pracovního postupu. Integrace Databricks MLflow usnadňuje používání služby sledování MLflow s transformátorovými kanály, modely a komponentami zpracování. Integrujte modely OpenAI nebo řešení od partnerů, jako je John Snow Labs , do pracovních postupů Databricks.

Pomocí Azure Databricks si přizpůsobte LLM pro vaše data pro konkrétní úlohu. Díky podpoře opensourcových nástrojů, jako je Hugging Face a DeepSpeed, můžete efektivně využít základní LLM a začít s trénováním s vlastními daty pro větší přesnost pro vaši doménu a úlohu.

Kromě toho Azure Databricks poskytuje funkce AI, které můžou datoví analytici SQL používat pro přístup k LLM, včetně z OpenAI, přímo v rámci svých datových kanálů a pracovních postupů. Viz Použití umělé inteligence na data pomocí služby Azure Databricks AI Functions.

Datové sklady, analýzy a BI

Azure Databricks kombinuje uživatelsky přívětivé uživatelské rozhraní s nákladově efektivními výpočetními prostředky a neomezeně škálovatelné a cenově dostupné úložiště, které poskytuje výkonnou platformu pro spouštění analytických dotazů. Správci konfigurují škálovatelné výpočetní clustery jako sql warehouse, což koncovým uživatelům umožňuje spouštět dotazy, aniž by se museli starat o složitost práce v cloudu. Uživatelé SQL můžou spouštět dotazy na data v lakehouse pomocí editoru dotazů SQL nebo v poznámkových blocích. Poznámkové bloky podporují kromě SQL také Python, R a Scala a umožňují uživatelům vkládat stejné vizualizace dostupné na řídicích panelech spolu s odkazy , obrázky a komentáři napsané v markdownu.

Zásady správného řízení dat a zabezpečené sdílení dat

Katalog Unity poskytuje jednotný model zásad správného řízení dat pro datové jezero. Správci cloudu konfigurují a integrují hrubá oprávnění řízení přístupu pro Katalog Unity a správci Azure Databricks můžou spravovat oprávnění pro týmy a jednotlivce. Oprávnění se spravují pomocí seznamů řízení přístupu (ACL) prostřednictvím uživatelsky přívětivých uživatelských rozhraní nebo syntaxe SQL, což správcům databází usnadňuje zabezpečení přístupu k datům, aniž by museli škálovat správu přístupu k identitám nativním pro cloud (IAM) a sítě.

Služba Unity Catalog usnadňuje spouštění zabezpečených analýz v cloudu a poskytuje oddělení odpovědnosti, které pomáhá omezit nutnost přeškolení nebo zlepšení dovedností pro správce i koncové uživatele platformy. Viz Co je Unity Catalog?.

Lakehouse umožňuje sdílení dat v rámci vaší organizace tím, že umožní tak snadný přístup k dotazům do tabulky nebo zobrazení. Pro sdílení mimo vaše zabezpečené prostředí, Unity Catalog nabízí spravovanou verzi Delta Sharing.

DevOps, CI/CD a orchestrace úloh

Životní cyklus vývoje pro kanály ETL, modely ML a analytické řídicí panely představují své vlastní jedinečné výzvy. Azure Databricks umožňuje všem uživatelům využívat jeden zdroj dat, což snižuje duplicitní úsilí a nesynchronizované generování sestav. Kromě toho poskytuje sadu běžných nástrojů pro správu verzí, automatizaci, plánování, nasazování kódu a produkčních prostředků, můžete zjednodušit režii při monitorování, orchestraci a operacích.

Úlohy plánují spuštění poznámkových bloků Azure Databricks, dotazů SQL a dalšího libovolného kódu. Deklarativní balíčky automatizace umožňují programově definovat, nasazovat a spouštět prostředky Databricks, jako jsou úlohy a kanály. Složky Git umožňují synchronizovat projekty Azure Databricks s několika oblíbenými poskytovateli Git.

Osvědčené postupy a doporučení CI/CD najdete v tématu Osvědčené postupy a doporučené pracovní postupy CI/CD v Databricks. Úplný přehled nástrojů pro vývojáře najdete v tématu Vývoj v Databricks.

Analytika v reálném čase a streamovaná analytika

Azure Databricks využívá strukturované streamování Apache Sparku k práci se streamovanými daty a přírůstkovými změnami dat. Strukturované streamování se úzce integruje s Delta Lake a tyto technologie tvoří základ pro deklarativní pipeline Lakeflow Sparku i Auto Loader. Viz koncepty strukturovaného streamování.

Online zpracování transakcí

Lakebase je databáze olTP (online transakční zpracování), která je plně integrovaná s platformou Databricks Data Intelligence Platform. Tato plně spravovaná databáze Postgres umožňuje vytvářet a spravovat databáze OLTP uložené v úložišti spravovaném službou Azure Databricks. Podívejte se , co znamená služba Lakebase Provisioned?.