Tento článek představuje funkci Čisté místnosti, což je funkce služby Azure Databricks, která využívá Delta Sharing a serverless výpočet k zajištění zabezpečeného prostředí a ochrany osobních údajů, ve kterém může více stran spolupracovat na citlivých podnikových datech bez přímého přístupu k datům ostatních.
Požadavky
Abyste mohli používat čisté místnosti, musíte mít:
Když vytvoříte čistou místnost, vytvoříte následující:
Objekt čisté místnosti, který lze zabezpečit, ve metastoru katalogu Unity.
"Centrální" čistý pokoj, což je izolované dočasné prostředí spravované Službou Databricks.
Zabezpečený objekt čisté místnosti v katalogu Unity v metastore spolupracovníka.
Tabulky, svazky (ne tabulková data), zobrazení a poznámkové bloky, které spolupracovník sdílí v čisté místnosti, se výhradně sdílí s centrální čistou místností pomocí Delta Sharing.
Spolupracovníci neuvidí data v tabulkách, zobrazeních nebo svazcích jiných spolupracovníků, ale můžou zobrazit názvy sloupců a typy sloupců a mohou spouštět schválený kód poznámkového bloku, který pracuje s datovými prostředky. Kód poznámkového bloku běží v centrální čisté místnosti. Poznámkové bloky mohou také generovat výstupní tabulky, které umožňují vašim spolupracovníkům dočasně ukládat výstup určený jen pro čtení do jejich metastoru katalogu Unity, aby s ním mohli pracovat ve svých pracovních prostorech.
Jak čisté místnosti zajišťují prostředí bez vztahu důvěryhodnosti?
Model Vyčištění místností Databricks je "bez vztahu důvěryhodnosti". Všichni spolupracovníci v čisté místnosti bez vztahu důvěryhodnosti mají stejná oprávnění, včetně tvůrce čisté místnosti. Čisté místnosti jsou navržené tak, aby zabránily spuštění neoprávněného kódu a neoprávněnému sdílení dat. Všichni spolupracovníci musí například před spuštěním schválit poznámkový blok. Tento vztah důvěryhodnosti se implicitně vynucuje tím, že spolupracovníkovi brání ve spuštění libovolného poznámkového bloku, který vytvořil sám: poznámkový blok vytvořený jiným spolupracovníkem můžete spustit pouze.
Další bezpečnostní opatření nebo omezení
Kromě implicitního schvalovacího procesu poznámkového bloku, který je uvedený výše, platí následující bezpečnostní opatření:
Po vytvoření čisté místnosti je uzamčena, aby se noví spolupracovníci nemohli připojit k čisté místnosti.
Pokud některý spolupracovník odstraní čistou místnost, centrální čistá místnost je neplatná a žádný úkol čisté místnosti nemůže spustit žádný uživatel.
Během veřejné verze Preview je každá čistá místnost omezená na dva spolupracovníky.
Čistou místnost nelze přejmenovat.
Název čisté místnosti musí být v metastoru každého spolupracovníka jedinečný, aby všichni spolupracovníci mohli jednoznačně odkazovat na stejnou čistou místnost.
Komentáře k zabezpečitelné místnosti v pracovním prostoru každého spolupracovníka se nerozšířijí do ostatních spolupracovníků.
Co se sdílí s dalšími spolupracovníky?
Čistý název místnosti.
Cloud a oblast centrální čisté místnosti.
Název vaší organizace (který může být libovolný název, který zvolíte).
Identifikátor sdílení čisté místnosti (globální ID metastoru + ID pracovního prostoru + e-mailová adresa uživatele).
Aliasy sdílených tabulek, zobrazení nebo svazků.
Metadata sloupců (název sloupce nebo alias a typ).
Spolupracovník, který poznámkový blok spustil (ne uživatele).
Stav spuštění poznámkového bloku
Čas spuštění poznámkového bloku
Co se sdílí s centrálním čistým pokojem?
Všechno, co je uvedené v předchozí části
Tabulky, svazky, zobrazení a poznámkové bloky jen pro čtení
Tabulky, zobrazení a svazky se registrují v metastoru centrální čisté místnosti s libovolně poskytnutými aliasy. Datová aktiva se sdílejí v průběhu životního cyklu datové místnosti.
Nejčastější dotazy k čištění místností
Níže najdete nejčastější dotazy týkající se čistých místností.
Jak se moje data spravují v čisté místnosti?
Centrální čistý pokoj spravuje Azure Databricks. V centrální čisté místnosti:
Žádná strana nemá oprávnění správce.
Pro všechny strany jsou viditelná pouze metadata.
Každá strana může přidat data do centrální čisté zóny.
Čisté místnosti používají funkci Delta Sharing k bezpečnému sdílení dat do čisté místnosti, ale ne mezi účastníky. Podívejte se na Co je to Delta Sharing?.
Jak jsou moje data soukromá?
Centrální čisté prostory fungují na izolované výpočetní vrstvě bez serveru, spravované službou Databricks, hostované v oblasti poskytovatele cloudu, kterou zvolí tvůrce čisté místnosti.
Čisté pokoje poskytují:
schválení kódu: tvůrce čisté místnosti a spolupracovníci mohou sdílet tabulky a svazky s centrální čistou místností, ale smí spouštět jenom poznámkové bloky nahrané druhou stranou. Před schválením můžete kód přidaný druhou stranou zkontrolovat. Pokud spustíte poznámkový blok přidaný jinou stranou, implicitně kód schválíte.
Správa verzí: Poznámkové bloky v čistých místnostech mají správu verzí, aby všechny strany mohly spouštět pouze plně schválené poznámkové bloky. Můžete spustit jenom nejnovější verzi poznámkového bloku. Systémovou tabulku čistých místností můžete použít k zobrazení, která verze poznámkového bloku byla spuštěna, a monitorovat všechny provedené změny.
Omezený přístup: Při vytváření čisté místnosti můžete ke správě odchozích síťových připojení použít řízení odchozího přenosu dat bez serveru. Pokud omezíte přístup z čisté místnosti, zablokuje se přístup k neoprávněnému úložišti. Viz Co je řízení výchozího přenosu dat bez serveru?.
Akce čisté místnosti provedené vámi nebo vašimi spolupracovníky se zaznamenávají v tabulce systému událostí čistých místností. Tyto záznamy zahrnují podrobná metadata o konkrétní akci, která byla provedena. Viz referenční tabulku systému událostí čistých místností.
Ve verzi Public Preview platí následující omezení:
V požadované verzi Databricks Runtime nejsou zahrnuté žádné knihovny Scala přihlašovacích údajů služby.
Kvóty prostředků
Azure Databricks vynucuje kvóty prostředků pro všechny zabezpečitelné objekty v čisté místnosti. Tyto kvóty jsou uvedené v omezeních prostředků. Pokud očekáváte překročení těchto limitů prostředků, obraťte se na svůj tým účtů Azure Databricks.
Demonstrate understanding of common data engineering tasks to implement and manage data engineering workloads on Microsoft Azure, using a number of Azure services.