Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
W tym artykule omówiono sposób używania funkcji udostępniania różnicowego usługi Databricks do usługi Databricks w celu bezpiecznego udostępniania danych wszystkim użytkownikom usługi Databricks, niezależnie od konta lub hosta w chmurze, o ile ten użytkownik ma dostęp do obszaru roboczego włączonego dla wykazu aparatu Unity.
Uwaga
Jeśli jesteś adresatem danych (użytkownik lub grupa użytkowników, którym są udostępniane dane usługi Databricks), zobacz Access data shared with you using Delta Sharing (dla adresatów).
Kto powinien używać funkcji udostępniania różnicowego usługi Databricks do usługi Databricks?
Istnieją trzy sposoby udostępniania danych przy użyciu funkcji udostępniania różnicowego.
Protokół udostępniania usługi Databricks-to-Databricks, opisany w tym artykule, umożliwia udostępnianie danych z obszaru roboczego obsługującego wykaz aparatu Unity użytkownikom, którzy mają również dostęp do obszaru roboczego usługi Databricks z obsługą wykazu aparatu Unity.
To podejście korzysta z serwera udostępniania różnicowego wbudowanego w usługę Azure Databricks i zapewnia obsługę udostępniania notesów, ładu danych wykazu aparatu Unity, inspekcji i śledzenia użycia zarówno dla dostawców, jak i adresatów. Integracja z Unity Catalog upraszcza konfigurowanie i zarządzanie zarówno dla dostawców, jak i odbiorców oraz poprawia wydajność.
Otwarty protokół udostępniania usługi Databricks umożliwia udostępnianie danych zarządzanych w obszarze roboczym usługi Databricks z obsługą wykazu aparatu Unity użytkownikom na dowolnej platformie obliczeniowej.
Zobacz Udostępnianie danych przy użyciu protokołu Delta Sharing (dla dostawców).
Implementacja zarządzana przez klienta serwera udostępniania różnicowego typu open source umożliwia udostępnianie z dowolnej platformy do dowolnej platformy, niezależnie od tego, czy usługa Databricks, czy nie.
Aby zapoznać się z wprowadzeniem do udostępniania różnicowego i uzyskać więcej informacji na temat tych trzech podejść, zobacz Co to jest udostępnianie różnicowe?.
Przepływ pracy udostępniania różnicowego usługi Databricks w usłudze Databricks
Ta sekcja zawiera ogólne omówienie przepływu pracy udostępniania usługi Databricks to-Databricks z linkami do szczegółowej dokumentacji dla każdego kroku.
W modelu udostępniania różnicowego usługi Databricks do usługi Databricks:
Odbiorca danych udostępnia dostawcy danych unikatowy identyfikator udostępniania magazynu metadanych wykazu aparatu Unity usługi Databricks dołączony do obszaru roboczego usługi Databricks, którego odbiorca (który reprezentuje użytkownika lub grupę użytkowników) będzie używać do uzyskiwania dostępu do danych udostępnianych przez dostawcę danych.
Aby uzyskać szczegółowe informacje, zobacz Krok 1: Poproś o identyfikator udostępniania odbiorcy.
Dostawca danych tworzy udział w metastore Unity Catalog dostawcy. Ten nazwany obiekt zawiera kolekcję tabel, widoków, woluminów i notesów zarejestrowanych w magazynie metadanych.
Aby uzyskać szczegółowe informacje, zobacz Tworzenie udziałów i zarządzanie nimi dla Delta Sharing.
Dostawca danych tworzy obiekt odbiorcy w magazynie metadanych Unity Catalog dostawcy. Ten nazwany obiekt reprezentuje użytkownika lub grupę użytkowników, którzy będą uzyskiwać dostęp do danych zawartych w udziale, wraz z identyfikatorem udostępniania magazynu metadanych wykazu aparatu Unity dołączonym do obszaru roboczego, którego użytkownik lub grupa użytkowników będą używać do uzyskiwania dostępu do udziału. Identyfikator udostępniania to identyfikator klucza, który umożliwia bezpieczne połączenie.
Aby uzyskać szczegółowe informacje, zobacz Krok 2. Tworzenie adresata.
Dostawca danych udziela adresatowi dostępu do udziału.
Aby uzyskać szczegółowe informacje, zobacz Zarządzanie dostępem do danych udostępnianych przez funkcję Delta Sharing dla dostawców.
Udział staje się dostępny w obszarze roboczym Databricks odbiorcy, a użytkownicy mogą uzyskiwać do niego dostęp przy użyciu Eksploratora Katalogu, interfejsu wiersza polecenia (CLI) Databricks lub poleceń SQL w notesie Azure Databricks lub edytorze zapytań SQL Databricks.
Aby uzyskać dostęp do tabel, widoków, woluminów i notesów w udziale, administrator magazynu metadanych lub użytkownik uprzywilejowany musi utworzyć wykaz na podstawie udziału. Następnie ten użytkownik lub inny użytkownik, któremu przyznano odpowiednie uprawnienia, może przyznać innym użytkownikom dostęp do katalogu i obiektów w wykazie. Udzielanie uprawnień do udostępnionych katalogów i zasobów danych działa tak samo jak w przypadku innych zasobów zarejestrowanych w wykazie aparatu Unity, z ważnym rozróżnieniem polega na tym, że użytkownicy mogą mieć dostęp tylko do odczytu dla obiektów w katalogach utworzonych na podstawie udziałów udostępniania różnicowego.
Notesy udostępnione działają na poziomie wykazu, a każdy użytkownik z
USE CATALOGuprawnieniami w wykazie może uzyskać do nich dostęp.Aby uzyskać szczegółowe informacje, zobacz Read data shared using Databricks-to-Databricks Delta Sharing (dla adresatów).
zwiększanie wydajności odczytu tabeli za pomocą udostępniania historii
Udostępnianie tabel Databricks do Databricks może zwiększyć wydajność, poprzez umożliwienie udostępniania historii. Udostępnianie historii poprawia wydajność dzięki wykorzystaniu tymczasowych poświadczeń zabezpieczeń z magazynu w chmurze, które są ograniczone do katalogu głównego udostępnionej tabeli Delta dostawcy, co umożliwia uzyskanie wydajności porównywalnej z bezpośrednim dostępem do tabel źródłowych.
- W przypadku nowych dostępów do tabeli określ
WITH HISTORYpodczas tworzeniu dostępu do tabeli. Zobacz Dodawanie tabel do udziału. Jeśli udostępniasz tabelę przy użyciu obliczeń w środowisku Databricks Runtime 16.2 lub nowszym,WITH HISTORYjest wartością domyślną. - W przypadku istniejących udziałów tabel należy zmienić ustawienia udziału, aby udostępniać historię tabeli. Zobacz Aktualizacja akcji. Jeśli udostępniasz tabelę przy użyciu obliczeń w środowisku Databricks Runtime 16.2 lub nowszym,
WITH HISTORYjest wartością domyślną.
Po udostępnieniu całego schematu wszystkie tabele w schemacie są domyślnie udostępniane z historią.
Uwaga
Tabele z włączonym partycjonowaniem nie otrzymują korzyści wydajnościowych z udostępniania historii. Zobacz Określanie partycji tabeli do udostępniania
Prywatność danych dotyczących udostępniania historii
Dostawcy powinni mieć na uwadze, że historia udostępniania między usługami Databricks zapewnia odbiorcom Delta Sharing tymczasowy dostęp do odczytu zarówno do plików danych, jak i dziennika Delta. Dziennik Delta zawiera historię zatwierdzeń dla każdej wersji tabeli, informacje o osobie zatwierdzającej (podobne do historii zatwierdzeń w GitHub) oraz usunięte dane, które nie zostały usunięte.
Macierz obsługi udostępniania Delta usługi Databricks do usługi Databricks w środowiskach chmurowych
Udostępnianie Delta między środowiskami Databricks jest obsługiwane tylko w obrębie tego samego typu środowiska: komercyjne-do-komercyjne, GovCloud-do-GovCloud, DoD-do-DoD lub Azure China-do-Azure China. Współużytkowanie między środowiskami — na przykład z chmur komercyjnych do platformy AWS GovCloud lub z platformy AWS GovCloud do platformy Azure — Chiny — nie jest obsługiwane. Chmury komercyjne obejmują obszary robocze z włączonymi mechanizmami kontroli zgodności, takimi jak FedRAMP Moderate.
Udostępnianie Delta Databricks do Databricks nie jest obsługiwane w środowiskach Azure Government.
W tej macierzy każdy wiersz reprezentuje środowisko dostawcy (dane udostępniania magazynu metadanych), a każda kolumna reprezentuje środowisko odbiorcy (magazyn metadanych odbierający dane udostępnione). Tabela wskazuje, czy udostępnianie jest obsługiwane, czy nie dla każdej kombinacji.
| Dostawca | Odbiorca: chmury komercyjne | Odbiorca: AWS GovCloud | Odbiorca: AWS GovCloud DoD | Odbiorca: Azure — Chiny |
|---|---|---|---|---|
| Chmury komercyjne | ✓ | |||
| AWS GovCloud | ✓ | |||
| AWS GovCloud DoD | ✓ | |||
| Azure Chiny | ✓ |