Usługa Azure Databricks dla deweloperów języka Scala

2025-03-28

Ten artykuł zawiera przewodnik dotyczący opracowywania notesów i zadań w usłudze Azure Databricks przy użyciu języka Scala. Pierwsza sekcja zawiera linki do samouczków dotyczących typowych przepływów pracy i zadań. Druga sekcja zawiera linki do interfejsów API, bibliotek i kluczowych narzędzi.

Podstawowym przepływem pracy na potrzeby rozpoczynania pracy jest:

Zaimportuj kod i uruchom go przy użyciu interaktywnego notesu usługi Databricks: zaimportuj własny kod z plików lub repozytoriów Git albo spróbuj wykonać samouczek wymieniony poniżej.
Uruchom kod w klastrze: utwórz własny klaster lub upewnij się, że masz uprawnienia do korzystania z udostępnionego klastra. Dołącz notatnik do klastra i uruchom notatnik.

Poza tym możesz rozgałęzić się w bardziej szczegółowe tematy:

Praca z większymi zestawami danych przy użyciu platformy Apache Spark
Dodawanie wizualizacji
Automatyzowanie obciążenia jako zadania
Programowanie w środowiskach IDE

Samouczki

W poniższych samouczkach przedstawiono przykładowy kod i notesy, aby dowiedzieć się więcej o typowych przepływach pracy. Zobacz Importowanie notesu , aby uzyskać instrukcje dotyczące importowania przykładów notesów do obszaru roboczego.

Samouczek: ładowanie i przekształcanie danych przy użyciu ramek danych platformy Apache Spark
Samouczek: usługa Delta Lake udostępnia przykłady języka Scala.
Używanie biblioteki XGBoost w usłudze Azure Databricks zawiera przykład języka Scala.

Referencja

Poniższe podsekcje zawierają listę kluczowych funkcji i wskazówek, które ułatwiają rozpoczęcie opracowywania w usłudze Azure Databricks za pomocą języka Scala.

Interfejs API języka Scala

Te linki zawierają wprowadzenie do interfejsu API Języka Scala platformy Apache Spark i dokumentację.

Zarządzanie kodem za pomocą notesów i folderów Git w usłudze Databricks

Notatniki Databricks obsługują Scala. Te notesy udostępniają funkcje podobne do tych z programu Jupyter, ale z dodatkami takimi jak wbudowane wizualizacje korzystające z danych big data, integracje platformy Apache Spark na potrzeby debugowania i monitorowania wydajności oraz integracje MLflow na potrzeby śledzenia eksperymentów uczenia maszynowego. Rozpocznij od importowania notatnika. Po uzyskaniu dostępu do klastra możesz dołączyć notatnik do klastra i uruchomić notatnik.

Napiwek

Aby zresetować stan notesu, uruchom ponownie jądro. W przypadku użytkowników Jupyter opcja "uruchom ponownie jądro" w Jupyter odpowiada odłączeniu i ponownym podłączeniu notatnika w usłudze Databricks. Aby ponownie uruchomić jądro w notesie, kliknij selektor zasobów obliczeniowych na pasku narzędzi notesu i umieść kursor na dołączonym klastrze lub magazynie SQL z listy, aby wyświetlić menu boczne. Wybierz Odłącz & Ponownie dołącz. Spowoduje to odłączenie notesu od klastra i ponowne podłączenie go, co spowoduje, że proces zostanie uruchomiony na nowo.

Foldery Git Databricks umożliwiają użytkownikom synchronizowanie notebooków i innych plików z repozytoriami Git. Foldery Git usługi Databricks ułatwiają przechowywanie wersji kodu i współpracę oraz upraszcza importowanie pełnego repozytorium kodu do usługi Azure Databricks, wyświetlanie wcześniejszych wersji notesów i integrowanie z programowaniem środowiska IDE. Rozpocznij od klonowania zdalnego repozytorium Git. Następnie możesz otworzyć lub utworzyć notesy za pomocą klonowania repozytorium, dołączyć notes do klastra i uruchomić notes.

Klastry i biblioteki

Środowisko obliczeniowe usługi Azure Databricks zapewnia zarządzanie obliczeniami dla klastrów o dowolnym rozmiarze: od klastrów z jednego węzła do dużych klastrów. Możesz dostosować sprzęt i biblioteki klastra zgodnie z potrzebami. Analitycy danych zazwyczaj rozpoczynają pracę, tworząc klaster lub używając istniejącego udostępnionego klastra. Po uzyskaniu dostępu do klastra możesz dołączyć notes do klastra lub uruchomić zadanie w klastrze.

W przypadku małych obciążeń, które wymagają tylko jednego węzła, analitycy danych mogą korzystać z obliczeń z jednym węzłem w celu uzyskania oszczędności kosztów.
Aby uzyskać szczegółowe porady, zobacz Zalecenia dotyczące konfiguracji obliczeniowej
Administratorzy mogą skonfigurować zasady klastra w celu uproszczenia i obsługi tworzenia klastra.

Klastry usługi Azure Databricks używają środowiska Databricks Runtime, które udostępnia wiele popularnych bibliotek, takich jak Apache Spark, Delta Lake i inne. Możesz również zainstalować dodatkowe biblioteki trzecich stron lub niestandardowe do użycia z notatnikami i zadaniami.

Zacznij od bibliotek domyślnych w informacjach o wersji środowiska Databricks Runtime i zgodności. Aby uzyskać pełną listę wstępnie zainstalowanych bibliotek, zobacz Databricks Runtime release notes versions and compatibility (Wersje i zgodność środowiska Databricks Runtime).
Biblioteki Języka Scala można również zainstalować w klastrze.
Aby uzyskać więcej informacji, zobacz Instalowanie bibliotek.

Wizualizacje

Notesy języka Scala usługi Azure Databricks mają wbudowaną obsługę wielu typów wizualizacji. Możesz również użyć starszych wizualizacji:

Współdziałanie

W tej sekcji opisano funkcje, które obsługują współdziałanie języków Scala i SQL.

Stanowiska

Obciążenia języka Scala można zautomatyzować jako zaplanowane lub wyzwalane zadania w usłudze Azure Databricks. Zadania mogą uruchamiać notatniki i pliki JAR.

Aby uzyskać szczegółowe informacje na temat tworzenia zadania za pośrednictwem interfejsu użytkownika, zobacz Konfigurowanie i edytowanie zadań lakeflow.
Zestawy SDK usługi Databricks umożliwiają programowe tworzenie, edytowanie i usuwanie zadań.
Interfejs Databricks CLI zapewnia wygodny sposób automatyzacji zadań z wykorzystaniem wiersza poleceń.

Środowiska IDE, narzędzia deweloperskie i zestawy SDK

Oprócz tworzenia kodu Języka Scala w notesach usługi Azure Databricks można programować zewnętrznie przy użyciu zintegrowanych środowisk projektowych (IDE), takich jak IntelliJ IDEA. Aby zsynchronizować pracę między zewnętrznymi środowiskami projektowymi i usługą Azure Databricks, istnieje kilka opcji:

Kod: kod można zsynchronizować przy użyciu narzędzia Git. Zobacz integracja z Git dla folderów Git usługi Databricks.
Biblioteki i zadania: biblioteki można tworzyć zewnętrznie i przekazywać je do usługi Azure Databricks. Te biblioteki mogą być importowane w notesach usługi Azure Databricks lub mogą służyć do tworzenia zadań. Zobacz Instalowanie bibliotek i Zadań Lakeflow.
Wykonywanie kodu na zdalnej maszynie: możesz uruchomić kod z lokalnego środowiska IDE do interaktywnego tworzenia i testowania. Środowisko IDE może komunikować się z usługą Azure Databricks w celu wykonywania dużych obliczeń w klastrach usługi Azure Databricks. Na przykład można użyć środowiska IntelliJ IDEA z usługą Databricks Connect.

Usługa Databricks udostępnia zestaw zestawów SDK, które obsługują automatyzację i integrację z zewnętrznymi narzędziami. Zestawy SDK usługi Databricks umożliwiają zarządzanie zasobami, takimi jak klastry i biblioteki, kod i inne obiekty obszaru roboczego, obciążenia i zadania itd. Zobacz zestawy SDK usługi Databricks.

Aby uzyskać więcej informacji na temat środowisk IDE, narzędzi deweloperskich i zestawów SDK, zobacz Lokalne narzędzia programistyczne.

Dodatkowe zasoby

Akademia Databricks oferuje kursy samodzielne i prowadzone przez instruktora na wiele tematów.

Udostępnij za pośrednictwem

Usługa Azure Databricks dla deweloperów języka Scala

Samouczki

Referencja

Interfejs API języka Scala

Zarządzanie kodem za pomocą notesów i folderów Git w usłudze Databricks

Klastry i biblioteki

Wizualizacje

Współdziałanie

Stanowiska

Środowiska IDE, narzędzia deweloperskie i zestawy SDK

Dodatkowe zasoby

Opinia

Dodatkowe zasoby