Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Azure Databricks je jednotná, otevřená analytická platforma pro sestavování, nasazování, sdílení a údržbu podnikových dat, analýz a řešení AI ve velkém měřítku. Platforma Databricks Data Intelligence se integruje s cloudovým úložištěm a zabezpečením ve vašem cloudovém účtu a spravuje a nasazuje cloudovou infrastrukturu za vás.
Azure Databricks používá generování umělé inteligence s data lakehousem k pochopení jedinečné sémantiky vašich dat. Pak automaticky optimalizuje výkon a spravuje infrastrukturu tak, aby odpovídala vašim obchodním potřebám.
Zpracování přirozeného jazyka se učí jazyk vaší firmy, takže můžete vyhledávat a objevovat data tak, že položíte otázku vlastním slovem. Pomoc s přirozeným jazykem vám pomůže psát kód, řešit chyby a najít odpovědi v dokumentaci.
Spravovaná opensourcová integrace
Databricks se zavazuje k opensourcové komunitě a spravuje aktualizace opensourcových integrací s verzemi Databricks Runtime. Následující technologie jsou opensourcové projekty, které původně vytvořili zaměstnanci Databricks:
Běžné případy použití
Následující případy použití zvýrazňují některé způsoby, jak zákazníci používají Azure Databricks k provádění úloh nezbytných ke zpracování, ukládání a analýze dat, která řídí důležité obchodní funkce a rozhodnutí.
Vytvořit podnikový datový lakehouse
Data Lakehouse kombinuje podnikové datové sklady a datová jezera k urychlení, zjednodušení a sjednocení podnikových datových řešení. Datoví inženýři, datoví vědci, analytici a produkční systémy můžou datové jezero používat jako jediný zdroj pravdy, poskytovat přístup k konzistentním datům a snižovat složitost vytváření, údržby a synchronizace mnoha distribuovaných datových systémů. Podívejte se, co je datové jezero?
ETL a příprava dat
Ať už generujete řídicí panely nebo pohánění aplikací umělé inteligence, poskytuje datové inženýrství základ pro společnosti zaměřené na data tím, že zajišťuje, aby byla data dostupná, čistá a uložená v datových modelech, aby bylo možné efektivně zjišťovat a používat. Azure Databricks kombinuje sílu Apache Sparku s Delta a vlastními nástroji, aby poskytovala nepřekonaný ETL zážitek. Pomocí SQL, Pythonu a Scaly můžete vytvořit logiku ETL a orchestrovat naplánované nasazení úloh několika kliknutími.
Deklarativní kanály Sparku Lakeflow dále zjednodušují ETL inteligentní správou závislostí mezi datovými sadami a automatickým nasazováním a škálováním produkční infrastruktury, aby se zajistilo včasné a přesné doručování dat do vašich specifikací.
Azure Databricks poskytuje nástroje pro příjem dat, včetně Auto Loaderu, efektivního a škálovatelného nástroje pro idempotentní přírůstkové načítání dat z cloudového úložiště objektů a datových jezer do datového lakehouse.
Strojové učení, AI a datové vědy
Strojové učení Azure Databricks rozšiřuje základní funkce platformy o sadu nástrojů přizpůsobených potřebám odborníků na data a techniků ML, včetně MLflow a Databricks Runtime pro Machine Learning.
Velké jazykové modely a generující AI
Databricks Runtime pro Machine Learning zahrnuje knihovny, jako je Hugging Face Transformers , které umožňují integrovat existující předem natrénované modely nebo jiné opensourcové knihovny do pracovního postupu. Integrace Databricks MLflow usnadňuje používání služby sledování MLflow s transformátorovými kanály, modely a komponentami zpracování. Integrujte modely OpenAI nebo řešení od partnerů, jako je John Snow Labs , do pracovních postupů Databricks.
Pomocí Azure Databricks si přizpůsobte LLM pro vaše data pro konkrétní úlohu. Díky podpoře opensourcových nástrojů, jako je Hugging Face a DeepSpeed, můžete efektivně využít základní LLM a začít s trénováním s vlastními daty pro větší přesnost pro vaši doménu a úlohu.
Kromě toho Azure Databricks poskytuje funkce AI, které můžou datoví analytici SQL používat pro přístup k LLM, včetně z OpenAI, přímo v rámci svých datových kanálů a pracovních postupů. Viz Použití umělé inteligence na data pomocí služby Azure Databricks AI Functions.
Datové sklady, analýzy a BI
Azure Databricks kombinuje uživatelsky přívětivé uživatelské rozhraní s nákladově efektivními výpočetními prostředky a neomezeně škálovatelné a cenově dostupné úložiště, které poskytuje výkonnou platformu pro spouštění analytických dotazů. Správci konfigurují škálovatelné výpočetní clustery jako sql warehouse, což koncovým uživatelům umožňuje spouštět dotazy, aniž by se museli starat o složitost práce v cloudu. Uživatelé SQL můžou spouštět dotazy na data v lakehouse pomocí editoru dotazů SQL nebo v poznámkových blocích. Poznámkové bloky podporují kromě SQL také Python, R a Scala a umožňují uživatelům vkládat stejné vizualizace dostupné na řídicích panelech spolu s odkazy , obrázky a komentáři napsané v markdownu.
Zásady správného řízení dat a zabezpečené sdílení dat
Katalog Unity poskytuje jednotný model zásad správného řízení dat pro datové jezero. Správci cloudu konfigurují a integrují hrubá oprávnění řízení přístupu pro Katalog Unity a správci Azure Databricks můžou spravovat oprávnění pro týmy a jednotlivce. Oprávnění se spravují pomocí seznamů řízení přístupu (ACL) prostřednictvím uživatelsky přívětivých uživatelských rozhraní nebo syntaxe SQL, což správcům databází usnadňuje zabezpečení přístupu k datům, aniž by museli škálovat správu přístupu k identitám nativním pro cloud (IAM) a sítě.
Služba Unity Catalog usnadňuje spouštění zabezpečených analýz v cloudu a poskytuje oddělení odpovědnosti, které pomáhá omezit nutnost přeškolení nebo zlepšení dovedností pro správce i koncové uživatele platformy. Viz Co je Unity Catalog?.
Lakehouse umožňuje sdílení dat v rámci vaší organizace tím, že umožní tak snadný přístup k dotazům do tabulky nebo zobrazení. Pro sdílení mimo vaše zabezpečené prostředí, Unity Catalog nabízí spravovanou verzi Delta Sharing.
DevOps, CI/CD a orchestrace úloh
Životní cyklus vývoje pro kanály ETL, modely ML a analytické řídicí panely představují své vlastní jedinečné výzvy. Azure Databricks umožňuje všem uživatelům využívat jeden zdroj dat, což snižuje duplicitní úsilí a nesynchronizované generování sestav. Kromě toho poskytuje sadu běžných nástrojů pro správu verzí, automatizaci, plánování, nasazování kódu a produkčních prostředků, můžete zjednodušit režii při monitorování, orchestraci a operacích.
Úlohy plánují spuštění poznámkových bloků Azure Databricks, dotazů SQL a dalšího libovolného kódu. Deklarativní balíčky automatizace umožňují programově definovat, nasazovat a spouštět prostředky Databricks, jako jsou úlohy a kanály. Složky Git umožňují synchronizovat projekty Azure Databricks s několika oblíbenými poskytovateli Git.
Osvědčené postupy a doporučení CI/CD najdete v tématu Osvědčené postupy a doporučené pracovní postupy CI/CD v Databricks. Úplný přehled nástrojů pro vývojáře najdete v tématu Vývoj v Databricks.
Analytika v reálném čase a streamovaná analytika
Azure Databricks využívá strukturované streamování Apache Sparku k práci se streamovanými daty a přírůstkovými změnami dat. Strukturované streamování se úzce integruje s Delta Lake a tyto technologie tvoří základ pro deklarativní pipeline Lakeflow Sparku i Auto Loader. Viz koncepty strukturovaného streamování.
Online zpracování transakcí
Lakebase je databáze olTP (online transakční zpracování), která je plně integrovaná s platformou Databricks Data Intelligence Platform. Tato plně spravovaná databáze Postgres umožňuje vytvářet a spravovat databáze OLTP uložené v úložišti spravovaném službou Azure Databricks. Podívejte se , co znamená služba Lakebase Provisioned?.