Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Ten artykuł zawiera wprowadzenie do migrowania istniejących aplikacji danych do usługi Azure Databricks. Usługa Azure Databricks zapewnia ujednolicone podejście umożliwiające pracę z danymi z wielu systemów źródłowych na jednej platformie.
Aby zapoznać się z omówieniem możliwości platformy, zobacz Co to jest usługa Azure Databricks?.
Migrowanie zadań ETL do usługi Azure Databricks
Zadania platformy Apache Spark używane do wyodrębniania, przekształcania i ładowania danych z implementacji lokalnych lub natywnych dla chmury można migrować do usługi Azure Databricks, wykonując kilka kroków. Zobacz Adapt your exisiting Apache Spark code for Azure Databricks (Dostosowywanie kodu platformy Apache Spark dla usługi Azure Databricks).
Usługa Azure Databricks rozszerza funkcjonalność usługi Spark SQL przy użyciu wstępnie skonfigurowanych integracji typu open source, integracji partnerów i ofert produktów dla przedsiębiorstw. Jeśli obciążenia ETL są zapisywane w języku SQL lub Hive, możesz przeprowadzić migrację do usługi Azure Databricks z minimalnym refaktoryzowaniem. Dowiedz się więcej o ofertach sql usługi Azure Databricks:
- Magazynowanie danych w usłudze Azure Databricks
- Potoki deklaratywne platformy Spark w usłudze Lakeflow
- Co to jest usługa Databricks Partner Connect?
Aby uzyskać szczegółowe instrukcje dotyczące migracji z różnych systemów źródłowych do usługi Azure Databricks, zobacz Migrowanie potoków ETL do usługi Azure Databricks.
Zastępowanie magazynu danych przedsiębiorstwa usługą Lakehouse
Usługa Azure Databricks zapewnia optymalną wartość i wydajność, gdy obciążenia są dopasowane do danych przechowywanych w usłudze Lakehouse. Wiele stosów danych przedsiębiorstw obejmuje zarówno jezioro danych (data lake), jak i magazyn danych przedsiębiorstwa, a organizacje tworzą złożone przepływy pracy ETL, aby utrzymać synchronizację tych systemów i danych. Koncepcja lakehouse umożliwia użycie tych samych danych przechowywanych w jeziorze danych w zapytaniach i systemach, które zazwyczaj wymagają oddzielnego magazynu danych. Aby uzyskać więcej informacji na temat lakehouse, zobacz Co to jest data lakehouse?. Aby uzyskać więcej informacji na temat magazynowania danych w usłudze Databricks, zobacz Architektura magazynowania danych.
Migracja z magazynu danych przedsiębiorstwa do usługi Lakehouse zwykle polega na zmniejszeniu złożoności architektury danych i przepływów pracy, ale istnieją pewne zastrzeżenia i najlepsze rozwiązania, które należy wziąć pod uwagę podczas wykonywania tej pracy. Zobacz Zmigruj swój magazyn danych do Databricks Lakehouse.
Ujednolicenie obciążeń uczenia maszynowego, nauki o danych i analizy
Ponieważ usługa Lakehouse zapewnia zoptymalizowany dostęp do plików danych opartych na chmurze za pośrednictwem zapytań tabel lub ścieżek plików, możesz wykonywać uczenie maszynowe, naukę o danych i analizę na pojedynczej kopii danych. Usługa Azure Databricks ułatwia przenoszenie obciążeń zarówno z narzędzi typu open source, jak i zastrzeżonych oraz utrzymuje zaktualizowane wersje wielu bibliotek typu open source używanych przez analityków i analityków danych.
Obciążenia Pandas w notatnikach Jupyter można synchronizować i uruchamiać przy użyciu folderów Git Databricks. Usługa Azure Databricks zapewnia natywną obsługę bibliotek pandas we wszystkich wersjach środowiska Databricks Runtime oraz konfiguruje wiele popularnych bibliotek uczenia maszynowego i uczenia głębokiego w środowisku Databricks Runtime for Machine Learning. W przypadku synchronizowania lokalnych obciążeń przy użyciu plików Git i obszarów roboczych w folderach Git można użyć tych samych ścieżek względnych dla danych i bibliotek niestandardowych znajdujących się w środowisku lokalnym.
Uwaga
Domyślnie usługa Azure Databricks obsługuje .ipynb rozszerzenia notesów Jupyter synchronizowane z folderami Git usługi Databricks, ale automatycznie konwertuje notesy Jupyter na notesy usługi Databricks podczas importowania z interfejsem użytkownika. Notesy Databricks są zapisywane z rozszerzeniem .py, dzięki czemu mogą współistnieć w repozytorium Git obok notesów Jupyter.