Pozyskiwanie danych do magazynu lakehouse usługi Databricks

Artykuł
07/19/2024

Usługa Azure Databricks oferuje różne sposoby pozyskiwania danych do magazynu typu lakehouse wspieranego przez usługę Delta Lake. Usługa Databricks zaleca używanie automatycznego modułu ładującego do przyrostowego pozyskiwania danych z magazynu obiektów w chmurze. Interfejs użytkownika dodawania danych udostępnia wiele opcji szybkiego przekazywania plików lokalnych lub nawiązywania połączenia z zewnętrznymi źródłami danych.

Uruchamianie pierwszego obciążenia ETL

Jeśli nie używasz automatycznego modułu ładującego w usłudze Azure Databricks, zacznij od samouczka. Zobacz Uruchamianie pierwszego obciążenia ETL w usłudze Azure Databricks.

Moduł ładujący automatycznie

Automatycznie ładujący przyrostowo i wydajnie przetwarza nowe pliki danych w miarę ich przybycia do magazynu w chmurze bez konieczności dodatkowej konfiguracji. Moduł automatycznego ładowania udostępnia źródło przesyłania strumieniowego ze strukturą o nazwie cloudFiles. Biorąc pod uwagę ścieżkę katalogu wejściowego w magazynie plików w chmurze, cloudFiles źródło automatycznie przetwarza nowe pliki po ich nadejściu, z opcją również przetwarzania istniejących plików w tym katalogu.

Automatyzowanie etL za pomocą tabel delta live i modułu ładującego

Wdrożenie skalowalnej, przyrostowej infrastruktury pozyskiwania można uprościć za pomocą funkcji automatycznego modułu ładującego i tabel na żywo delty. Należy pamiętać, że funkcja Delta Live Tables nie używa standardowego interakcyjnego wykonywania znalezionego w notesach, zamiast tego podkreśla wdrażanie infrastruktury gotowej do produkcji.

Przekazywanie lokalnych plików danych lub łączenie zewnętrznych źródeł danych

Możesz bezpiecznie przekazać lokalne pliki danych lub pozyskać dane ze źródeł zewnętrznych w celu utworzenia tabel. Zobacz Ładowanie danych przy użyciu interfejsu użytkownika dodawania danych.

Pozyskiwanie danych do usługi Azure Databricks przy użyciu narzędzi innych firm

Usługa Azure Databricks weryfikuje integracje partnerów technologicznych, które umożliwiają pozyskiwanie danych do usługi Azure Databricks. Te integracje umożliwiają niskokodowe, skalowalne pozyskiwanie danych z różnych źródeł do usługi Azure Databricks. Zobacz Partnerów technologicznych. Niektórzy partnerzy technologiczni są polecani w programie Databricks Partner Connect, który udostępnia interfejs użytkownika, który upraszcza łączenie narzędzi innych firm z danymi typu lakehouse.

COPY INTO

FUNKCJA COPY INTO umożliwia użytkownikom SQL idempotentnie i przyrostowe pozyskiwanie danych z magazynu obiektów w chmurze do tabel delty. Można go używać w usłudze Databricks SQL, notesach i zadaniach usługi Databricks.

Kiedy należy używać funkcji COPY INTO i kiedy używać automatycznego modułu ładującego

Poniżej przedstawiono kilka kwestii, które należy wziąć pod uwagę podczas wybierania między modułem automatycznego ładowania i COPY INTO:

Jeśli zamierzasz pozyskiwać pliki w kolejności tysięcy, możesz użyć polecenia COPY INTO. Jeśli spodziewasz się plików w kolejności od milionów lub więcej czasu, użyj modułu automatycznego ładowania. Moduł automatycznego ładowania wymaga mniejszej liczby operacji odnajdywania plików w porównaniu z COPY INTO i może podzielić przetwarzanie na wiele partii, co oznacza, że moduł automatycznego ładowania jest mniej kosztowny i bardziej wydajny na dużą skalę.
Jeśli schemat danych będzie często ewoluował, moduł automatycznego ładowania zapewnia lepsze typy pierwotne dotyczące wnioskowania i ewolucji schematu. Aby uzyskać więcej informacji, zobacz Konfigurowanie wnioskowania schematu i ewolucji w module automatycznego ładowania .
Ładowanie podzestawu ponownie przekazanych plików może być nieco łatwiejsze do zarządzania za pomocą polecenia COPY INTO. W przypadku automatycznego modułu ładującego trudniej jest ponownie przetworzyć wybrany podzbiór plików. Można jednak użyć COPY INTO polecenia , aby ponownie załadować podzbiór plików, gdy strumień automatycznego modułu ładującego jest uruchomiony jednocześnie.
W przypadku jeszcze bardziej skalowalnego i niezawodnego środowiska pozyskiwania plików funkcja automatycznego ładowania umożliwia użytkownikom SQL korzystanie z tabel przesyłania strumieniowego. Zobacz Ładowanie danych przy użyciu tabel przesyłania strumieniowego w usłudze Databricks SQL.

Aby uzyskać krótkie omówienie i pokaz funkcji automatycznego ładowania, a także COPY INTO, obejrzyj następujący film wideo w serwisie YouTube (2 minuty).

Przeglądanie metadanych pliku przechwyconych podczas pozyskiwania danych

Platforma Apache Spark automatycznie przechwytuje dane dotyczące plików źródłowych podczas ładowania danych. Usługa Azure Databricks umożliwia dostęp do tych danych za pomocą kolumny Metadane pliku.

Przekazywanie eksportów arkuszy kalkulacyjnych do usługi Azure Databricks

Użyj strony Tworzenie lub modyfikowanie tabeli na podstawie przekazywania plików, aby przekazać pliki CSV, TSV lub JSON. Zobacz Tworzenie lub modyfikowanie tabeli przy użyciu przekazywania plików.

Migrowanie aplikacji danych do usługi Azure Databricks

Migrowanie istniejących aplikacji danych do usługi Azure Databricks w celu pracy z danymi z wielu systemów źródłowych na jednej platformie. Zobacz Migrowanie aplikacji danych do usługi Azure Databricks.

Udostępnij za pośrednictwem