Pozyskiwanie danych do magazynu lakehouse usługi Databricks
Usługa Azure Databricks oferuje różne sposoby pozyskiwania danych do magazynu typu lakehouse wspieranego przez usługę Delta Lake. Usługa Databricks zaleca używanie automatycznego modułu ładującego do przyrostowego pozyskiwania danych z magazynu obiektów w chmurze. Interfejs użytkownika dodawania danych udostępnia wiele opcji szybkiego przekazywania plików lokalnych lub nawiązywania połączenia z zewnętrznymi źródłami danych.
Uruchamianie pierwszego obciążenia ETL
Jeśli nie używasz automatycznego modułu ładującego w usłudze Azure Databricks, zacznij od samouczka. Zobacz Uruchamianie pierwszego obciążenia ETL w usłudze Azure Databricks.
Moduł ładujący automatycznie
Automatycznie ładujący przyrostowo i wydajnie przetwarza nowe pliki danych w miarę ich przybycia do magazynu w chmurze bez konieczności dodatkowej konfiguracji. Moduł automatycznego ładowania udostępnia źródło przesyłania strumieniowego ze strukturą o nazwie cloudFiles
. Biorąc pod uwagę ścieżkę katalogu wejściowego w magazynie plików w chmurze, cloudFiles
źródło automatycznie przetwarza nowe pliki po ich nadejściu, z opcją również przetwarzania istniejących plików w tym katalogu.
Automatyzowanie etL za pomocą tabel delta live i modułu ładującego
Wdrożenie skalowalnej, przyrostowej infrastruktury pozyskiwania można uprościć za pomocą funkcji automatycznego modułu ładującego i tabel na żywo delty. Należy pamiętać, że funkcja Delta Live Tables nie używa standardowego interakcyjnego wykonywania znalezionego w notesach, zamiast tego podkreśla wdrażanie infrastruktury gotowej do produkcji.
Samouczek: uruchamianie pierwszego obciążenia ETL w usłudze Databricks
Pozyskiwanie danych przy użyciu tabel przesyłania strumieniowego (notes Python/SQL)
Ładowanie danych przy użyciu tabel przesyłania strumieniowego w usłudze Databricks SQL
Przekazywanie lokalnych plików danych lub łączenie zewnętrznych źródeł danych
Możesz bezpiecznie przekazać lokalne pliki danych lub pozyskać dane ze źródeł zewnętrznych w celu utworzenia tabel. Zobacz Ładowanie danych przy użyciu interfejsu użytkownika dodawania danych.
Pozyskiwanie danych do usługi Azure Databricks przy użyciu narzędzi innych firm
Usługa Azure Databricks weryfikuje integracje partnerów technologicznych, które umożliwiają pozyskiwanie danych do usługi Azure Databricks. Te integracje umożliwiają niskokodowe, skalowalne pozyskiwanie danych z różnych źródeł do usługi Azure Databricks. Zobacz Partnerów technologicznych. Niektórzy partnerzy technologiczni są polecani w programie Databricks Partner Connect, który udostępnia interfejs użytkownika, który upraszcza łączenie narzędzi innych firm z danymi typu lakehouse.
COPY INTO
FUNKCJA COPY INTO umożliwia użytkownikom SQL idempotentnie i przyrostowe pozyskiwanie danych z magazynu obiektów w chmurze do tabel delty. Można go używać w usłudze Databricks SQL, notesach i zadaniach usługi Databricks.
Kiedy należy używać funkcji COPY INTO i kiedy używać automatycznego modułu ładującego
Poniżej przedstawiono kilka kwestii, które należy wziąć pod uwagę podczas wybierania między modułem automatycznego ładowania i COPY INTO
:
Jeśli zamierzasz pozyskiwać pliki w kolejności tysięcy, możesz użyć polecenia
COPY INTO
. Jeśli spodziewasz się plików w kolejności od milionów lub więcej czasu, użyj modułu automatycznego ładowania. Moduł automatycznego ładowania wymaga mniejszej liczby operacji odnajdywania plików w porównaniu zCOPY INTO
i może podzielić przetwarzanie na wiele partii, co oznacza, że moduł automatycznego ładowania jest mniej kosztowny i bardziej wydajny na dużą skalę.Jeśli schemat danych będzie często ewoluował, moduł automatycznego ładowania zapewnia lepsze typy pierwotne dotyczące wnioskowania i ewolucji schematu. Aby uzyskać więcej informacji, zobacz Konfigurowanie wnioskowania schematu i ewolucji w module automatycznego ładowania .
Ładowanie podzestawu ponownie przekazanych plików może być nieco łatwiejsze do zarządzania za pomocą polecenia
COPY INTO
. W przypadku automatycznego modułu ładującego trudniej jest ponownie przetworzyć wybrany podzbiór plików. Można jednak użyćCOPY INTO
polecenia , aby ponownie załadować podzbiór plików, gdy strumień automatycznego modułu ładującego jest uruchomiony jednocześnie.W przypadku jeszcze bardziej skalowalnego i niezawodnego środowiska pozyskiwania plików funkcja automatycznego ładowania umożliwia użytkownikom SQL korzystanie z tabel przesyłania strumieniowego. Zobacz Ładowanie danych przy użyciu tabel przesyłania strumieniowego w usłudze Databricks SQL.
Aby uzyskać krótkie omówienie i pokaz funkcji automatycznego ładowania, a także COPY INTO
, obejrzyj następujący film wideo w serwisie YouTube (2 minuty).
Przeglądanie metadanych pliku przechwyconych podczas pozyskiwania danych
Platforma Apache Spark automatycznie przechwytuje dane dotyczące plików źródłowych podczas ładowania danych. Usługa Azure Databricks umożliwia dostęp do tych danych za pomocą kolumny Metadane pliku.
Przekazywanie eksportów arkuszy kalkulacyjnych do usługi Azure Databricks
Użyj strony Tworzenie lub modyfikowanie tabeli na podstawie przekazywania plików, aby przekazać pliki CSV, TSV lub JSON. Zobacz Tworzenie lub modyfikowanie tabeli przy użyciu przekazywania plików.
Migrowanie aplikacji danych do usługi Azure Databricks
Migrowanie istniejących aplikacji danych do usługi Azure Databricks w celu pracy z danymi z wielu systemów źródłowych na jednej platformie. Zobacz Migrowanie aplikacji danych do usługi Azure Databricks.
Opinia
https://aka.ms/ContentUserFeedback.
Dostępne już wkrótce: W 2024 r. będziemy stopniowo wycofywać zgłoszenia z serwisu GitHub jako mechanizm przesyłania opinii na temat zawartości i zastępować go nowym systemem opinii. Aby uzyskać więcej informacji, sprawdź:Prześlij i wyświetl opinię dla