Sdílet prostřednictvím


Návody pro práci s daty

Platforma Databricks Data Intelligence umožňuje odborníkům na data v celé organizaci spolupracovat a realizovat datová řešení pomocí sdílených a bezpečně řízených datových prostředků a nástrojů.

Tento článek vám pomůže identifikovat správný výchozí bod pro váš případ použití.

Mnoho úloh v Azure Databricks vyžaduje zvýšená oprávnění. Mnoho organizací omezuje tato zvýšená oprávnění na malý počet uživatelů nebo týmů. Tento článek objasňuje rozdíl mezi akcemi, které může dokončit většina uživatelů pracovního prostoru, a akcemi, které jsou omezené na privilegované uživatele.

Správci pracovního prostoru vám můžou pomoct určit, jestli chcete požádat o přístup k prostředkům nebo požádat o zvýšená oprávnění.

Hledání a přístup k datům

Tato část obsahuje stručný přehled úkolů, které vám pomůžou zjišťovat datové prostředky, které jsou vám k dispozici. Většina těchto úloh předpokládá, že správce nakonfiguroval oprávnění k datovým prostředkům. Viz Konfigurace přístupu k datům.

Oblast funkcí Resources
Zjišťování dat Podrobnější přehled úloh zjišťování dat najdete v tématu Zjišťování dat.
Catalogs Katalogy jsou objektem nejvyšší úrovně v modelu zásad správného řízení dat katalogu Unity. Pomocí průzkumníka katalogu vyhledejte tabulky, zobrazení a další datové prostředky. Viz Prozkoumání databázových objektů.
Připojené úložiště Pokud máte přístup k výpočetním prostředkům, můžete k prozkoumání souborů v připojeném úložišti použít integrované příkazy. Viz Prozkoumání úložiště a vyhledání datových souborů.
Nahrání místních souborů Ve výchozím nastavení mají uživatelé oprávnění k nahrávání malých datových souborů z místního počítače, jako jsou CSV soubory. Viz Vytvoření nebo úprava tabulky pomocí nahrání souboru.

Práce s daty

Tato část obsahuje přehled běžných datových úloh a nástrojů používaných k provádění těchto úloh.

U všech popsaných úloh musí mít uživatelé správná oprávnění k nástrojům, výpočetním prostředkům, datům a dalším artefaktům pracovního prostoru. Viz Konfigurace přístupu k datům a Konfigurace pracovních prostorů ainfrastruktury .

Oblast funkcí Resources
Databázové objekty Kromě tabulek a zobrazení používá Azure Databricks k bezpečnému řízení dat další zabezpečitelné databázové objekty, jako jsou svazky. Viz Databázové objekty v Azure Databricks.
Oprávnění k datům Katalog Unity řídí všechny operace čtení a zápisu v povolených pracovních prostorech. K dokončení těchto operací musíte mít odpovídající oprávnění. Podívejte se na zabezpečované objekty v katalogu Unity.
ETL Mezi nejběžnější využití úloh Apache Spark a Azure Databricks patří úlohy extrakce, transformace a načítání (ETL) a většina platforem má vytvořené a optimalizované funkce pro ETL. Viz kurz: Sestavení kanálu ETL pomocí deklarativních kanálů Sparku Lakeflow.
Queries
Řídicí panely a přehledy
  • Řídicí panely AI/BI umožňují snadno extrahovat a vizualizovat přehledy v uživatelském rozhraní. Podívejte se na řídicí panely.
  • Genie spaces používá textové výzvy k zodpovězení otázek a poskytování přehledů informovaných vašimi daty. Viz Co je prostor AI/BI Genie.
Ingest
  • Lakeflow Connect ingestuje data z oblíbených externích systémů. Podívejte se na Spravované konektory v Lakeflow Connect.
  • Automatický zavaděč je možné použít s Lakeflow Spark deklarativními kanály nebo úlohami pro strukturované streamování k postupné integraci dat z cloudového úložiště objektů. Viz Co je Auto Loader?.
  • Deklarativní kanály Lakeflow Sparku nebo strukturované streamování můžete použít k ingestování dat z front zpráv, včetně Kafka. Viz Dotazování streamovaných dat.
Transformations Azure Databricks používá běžnou syntaxi a nástroje pro datové transformace, které se mohou lišit v komplexnosti, od příkazů CTAS SQL až po aplikace pro streamování téměř v reálném čase.
AI a strojové učení Platforma Databricks Data Intelligence poskytuje sadu nástrojů pro datové vědy, strojové učení a aplikace AI. Viz AI a strojové učení vDatabricks .

Konfigurace přístupu k datům

Většina pracovních prostorů Azure Databricks spoléhá na správce pracovního prostoru nebo jiné uživatele, kteří můžou konfigurovat připojení k externím zdrojům dat a vynucovat oprávnění k datovým prostředkům na základě členství v týmu, oblasti nebo rolích. Tato část obsahuje přehled běžných úloh pro konfiguraci a řízení datových aces, které vyžadují zvýšená oprávnění.

Note

Před vyžádáním zvýšených oprávnění ke konfiguraci nového připojení ke zdroji dat ověřte, jestli ve stávajícím připojení, katalogu nebo tabulce chybí jenom oprávnění. Pokud zdroj dat není k dispozici, obraťte se ve vaší organizaci na zásady pro přidání nových dat do pracovního prostoru.

Oblast funkcí Resources
Katalog Unity
  • Unity Catalog využívá funkce zásad správného řízení dat integrované do platformy Databricks Data Intelligence Platform. Viz Co je katalog Unity?.
  • Správci účtu Databricks, správci pracovních prostorů a správci metastoru mají výchozí oprávnění ke správě oprávnění k datům katalogu Unity pro uživatele. Viz Správa oprávnění vkatalogu Unity .
Připojení a přístup
Sharing
  • Delta Sharing je jádrem zabezpečené platformy pro sdílení dat v Azure Databricks, která zahrnuje Databricks Marketplace a Clean Rooms. Viz Bezpečné sdílení dat a prostředků AI s uživateli v jiných organizacích.
  • Správci můžou vytvářet nové katalogy. Katalogy poskytují vysokou abstrakci pro izolaci dat a mohou být svázány s jednotlivými pracovními prostory nebo sdíleny napříč všemi pracovními prostory v účtu. Viz Vytváření katalogů.- Řídicí panely AI/BI povzbuzují vlastníky k vložení přihlašovacích údajů při publikování, aby zajistily, že uživatelé mohou získat přehledy ze sdílených výsledků. Podrobnosti najdete v tématu Sdílení řídicího panelu.

Konfigurace pracovních prostorů a infrastruktury

Tato část obsahuje přehled běžných úloh spojených se správou prostředků a infrastruktury pracovního prostoru. Obecně definované prostředky pracovního prostoru zahrnují následující:

  • Výpočetní prostředky: Výpočetní prostředky zahrnují obecné interaktivní clustery, úložiště SQL, clustery úloh a výpočetní prostředky pro kanály. Aby bylo možné zpracovat zadanou logiku, musí mít uživatel nebo úloha oprávnění pro připojení ke spouštění výpočetních prostředků.

    Note

    Uživatelé, kteří nemají přístup k připojení k žádným výpočetním prostředkům, mají ve službě Azure Databricks velmi omezené funkce.

  • nástroje platformy : Platforma Databricks Data Intelligence poskytuje sadu nástrojů přizpůsobených různým případům použití a osobám, jako jsou poznámkové bloky, Databricks SQL a Mosaic AI. Správci můžou přizpůsobit nastavení, která zahrnují výchozí chování, volitelné funkce a uživatelský přístup pro mnoho z těchto nástrojů.

  • Artefakty: Artefakty zahrnují poznámkové bloky, dotazy, řídicí panely, soubory, knihovny, datové toky a úlohy. Artefakty obsahují kód a konfigurace, které uživatelé vytvořili, aby mohli s daty provádět požadované akce.

Important

Uživateli, který vytvoří pracovní prostorový prostředek, je ve výchozím nastavení přiřazena role vlastníka. U většiny prostředků můžou vlastníci udělit oprávnění jakémukoli jinému uživateli nebo skupině v pracovním prostoru.

Aby byla data a kód zabezpečené, doporučuje Databricks nakonfigurovat roli vlastníka pro všechny artefakty a výpočetní prostředky nasazené do produkčního pracovního prostoru.

Oblast funkcí Resources
Nároky pracovního prostoru Nároky pracovního prostoru zahrnují základní přístup k pracovnímu prostoru, přístup k Sql Databricks a neomezené vytváření clusteru. Viz Správa nároků.
Zásady & přístupu k výpočetním prostředkům
  • Většina nákladů na Azure Databricks je určená pro výpočetní prostředky. Řízení, kteří uživatelé mají možnost konfigurovat, nasazovat, spouštět a používat různé prostředky, je nezbytné pro řízení nákladů. Podívejte se na přehled klasických výpočetních prostředků.
  • Zásady výpočetních prostředků fungují společně s nároky na výpočetní prostředky pracovního prostoru, aby se zajistilo, že oprávnění uživatelé nasadí výpočetní prostředky pouze podle zadaných pravidel konfigurace. Viz Vytvoření a správa zásad výpočetních prostředků.
  • Správci můžou nakonfigurovat výchozí chování, zásady přístupu k datům a uživatelský přístup ke službě SQL Warehouse. Viz nastavení správce SQL Warehouse.
Nástroje platformy Pomocí konzoly pro správu můžete nakonfigurovat chování od přizpůsobení vzhledu pracovního prostoru až po povolení nebo zakázání produktů a funkcí. Podívejte se na Správu pracovního prostoru.
Seznamy ACL pracovního prostoru Seznamy řízení přístupu k pracovnímu prostoru (ACL) určují způsob interakce uživatelů a skupin s prostředky pracovního prostoru, včetně výpočetních prostředků, artefaktů kódu a úloh. Viz seznamy řízení přístupu.

Produkční nasazení úloh

Všechny produkty Azure Databricks jsou sestaveny tak, aby urychlily cestu od vývoje do produkčního prostředí a pro škálování a stabilitu. Tato část obsahuje stručný úvod k sadě nástrojů doporučených pro uvedení úloh do produkčního prostředí.

Oblast funkcí Resources
Kanály ETL Deklarativní kanály Sparku Lakeflow poskytují deklarativní syntaxi pro sestavování a produkci kanálů ETL. Viz deklarativní kanály Sparku Lakeflow.
Orchestration Úlohy umožňují definovat složité pracovní postupy se závislostmi, aktivačními událostmi a harmonogramy. Podívejte se na Úlohy Lakeflow.
CI/CD Sady prostředků Databricks usnadňují správu a nasazování dat, prostředků a artefaktů napříč pracovními prostory. Podívejte se na Co jsou Databricks Asset Bundles?.