Uwaga
Dostęp do tej strony wymaga autoryzacji. Może spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Ten artykuł zawiera przewodnik dotyczący opracowywania notesów i zadań w usłudze Azure Databricks przy użyciu języka Scala. Pierwsza sekcja zawiera linki do samouczków dotyczących typowych przepływów pracy i zadań. Druga sekcja zawiera linki do interfejsów API, bibliotek i kluczowych narzędzi.
Podstawowym przepływem pracy na potrzeby rozpoczynania pracy jest:
- Zaimportuj kod i uruchom go przy użyciu interaktywnego notesu usługi Databricks: zaimportuj własny kod z plików lub repozytoriów Git albo spróbuj wykonać samouczek wymieniony poniżej.
- Uruchom kod w klastrze: utwórz własny klaster lub upewnij się, że masz uprawnienia do korzystania z udostępnionego klastra. Dołącz notatnik do klastra i uruchom notatnik.
Poza tym możesz rozgałęzić się w bardziej szczegółowe tematy:
- Praca z większymi zestawami danych przy użyciu platformy Apache Spark
- Dodawanie wizualizacji
- Automatyzowanie obciążenia jako zadania
- Programowanie w środowiskach IDE
Samouczki
W poniższych samouczkach przedstawiono przykładowy kod i notesy, aby dowiedzieć się więcej o typowych przepływach pracy. Zobacz Importowanie notesu , aby uzyskać instrukcje dotyczące importowania przykładów notesów do obszaru roboczego.
- Samouczek: ładowanie i przekształcanie danych przy użyciu ramek danych platformy Apache Spark
- Samouczek: usługa Delta Lake udostępnia przykłady języka Scala.
- Używanie biblioteki XGBoost w usłudze Azure Databricks zawiera przykład języka Scala.
Referencja
Poniższe podsekcje zawierają listę kluczowych funkcji i wskazówek, które ułatwiają rozpoczęcie opracowywania w usłudze Azure Databricks za pomocą języka Scala.
Interfejs API języka Scala
Te linki zawierają wprowadzenie do interfejsu API Języka Scala platformy Apache Spark i dokumentację.
- Samouczek: ładowanie i przekształcanie danych przy użyciu ramek danych platformy Apache Spark
- Wykonywanie zapytań względem ciągów JSON
- Wprowadzenie do przesyłania strumieniowego ze strukturą
- Dokumentacja interfejsu API platformy Apache Spark Core
- Dokumentacja interfejsu API uczenia maszynowego platformy Apache Spark
Zarządzanie kodem za pomocą notesów i folderów Git w usłudze Databricks
Notatniki Databricks obsługują Scala. Te notesy udostępniają funkcje podobne do tych z programu Jupyter, ale z dodatkami takimi jak wbudowane wizualizacje korzystające z danych big data, integracje platformy Apache Spark na potrzeby debugowania i monitorowania wydajności oraz integracje MLflow na potrzeby śledzenia eksperymentów uczenia maszynowego. Rozpocznij od importowania notatnika. Po uzyskaniu dostępu do klastra możesz dołączyć notatnik do klastra i uruchomić notatnik.
Napiwek
Aby zresetować stan notesu, uruchom ponownie jądro. W przypadku użytkowników Jupyter opcja "uruchom ponownie jądro" w Jupyter odpowiada odłączeniu i ponownym podłączeniu notatnika w usłudze Databricks. Aby ponownie uruchomić jądro w notesie, kliknij selektor zasobów obliczeniowych na pasku narzędzi notesu i umieść kursor na dołączonym klastrze lub magazynie SQL z listy, aby wyświetlić menu boczne. Wybierz Odłącz & Ponownie dołącz. Spowoduje to odłączenie notesu od klastra i ponowne podłączenie go, co spowoduje, że proces zostanie uruchomiony na nowo.
Foldery Git Databricks umożliwiają użytkownikom synchronizowanie notebooków i innych plików z repozytoriami Git. Foldery Git usługi Databricks ułatwiają przechowywanie wersji kodu i współpracę oraz upraszcza importowanie pełnego repozytorium kodu do usługi Azure Databricks, wyświetlanie wcześniejszych wersji notesów i integrowanie z programowaniem środowiska IDE. Rozpocznij od klonowania zdalnego repozytorium Git. Następnie możesz otworzyć lub utworzyć notesy za pomocą klonowania repozytorium, dołączyć notes do klastra i uruchomić notes.
Klastry i biblioteki
Środowisko obliczeniowe usługi Azure Databricks zapewnia zarządzanie obliczeniami dla klastrów o dowolnym rozmiarze: od klastrów z jednego węzła do dużych klastrów. Możesz dostosować sprzęt i biblioteki klastra zgodnie z potrzebami. Analitycy danych zazwyczaj rozpoczynają pracę, tworząc klaster lub używając istniejącego udostępnionego klastra. Po uzyskaniu dostępu do klastra możesz dołączyć notes do klastra lub uruchomić zadanie w klastrze.
- W przypadku małych obciążeń, które wymagają tylko jednego węzła, analitycy danych mogą korzystać z obliczeń z jednym węzłem w celu uzyskania oszczędności kosztów.
- Aby uzyskać szczegółowe porady, zobacz Zalecenia dotyczące konfiguracji obliczeniowej
- Administratorzy mogą skonfigurować zasady klastra w celu uproszczenia i obsługi tworzenia klastra.
Klastry usługi Azure Databricks używają środowiska Databricks Runtime, które udostępnia wiele popularnych bibliotek, takich jak Apache Spark, Delta Lake i inne. Możesz również zainstalować dodatkowe biblioteki trzecich stron lub niestandardowe do użycia z notatnikami i zadaniami.
- Zacznij od bibliotek domyślnych w informacjach o wersji środowiska Databricks Runtime i zgodności. Aby uzyskać pełną listę wstępnie zainstalowanych bibliotek, zobacz Databricks Runtime release notes versions and compatibility (Wersje i zgodność środowiska Databricks Runtime).
- Biblioteki Języka Scala można również zainstalować w klastrze.
- Aby uzyskać więcej informacji, zobacz Instalowanie bibliotek.
Wizualizacje
Notesy języka Scala usługi Azure Databricks mają wbudowaną obsługę wielu typów wizualizacji. Możesz również użyć starszych wizualizacji:
Współdziałanie
W tej sekcji opisano funkcje, które obsługują współdziałanie języków Scala i SQL.
Stanowiska
Obciążenia języka Scala można zautomatyzować jako zaplanowane lub wyzwalane zadania w usłudze Azure Databricks. Zadania mogą uruchamiać notatniki i pliki JAR.
- Aby uzyskać szczegółowe informacje na temat tworzenia zadania za pośrednictwem interfejsu użytkownika, zobacz Konfigurowanie i edytowanie zadań lakeflow.
- Zestawy SDK usługi Databricks umożliwiają programowe tworzenie, edytowanie i usuwanie zadań.
- Interfejs Databricks CLI zapewnia wygodny sposób automatyzacji zadań z wykorzystaniem wiersza poleceń.
Środowiska IDE, narzędzia deweloperskie i zestawy SDK
Oprócz tworzenia kodu Języka Scala w notesach usługi Azure Databricks można programować zewnętrznie przy użyciu zintegrowanych środowisk projektowych (IDE), takich jak IntelliJ IDEA. Aby zsynchronizować pracę między zewnętrznymi środowiskami projektowymi i usługą Azure Databricks, istnieje kilka opcji:
- Kod: kod można zsynchronizować przy użyciu narzędzia Git. Zobacz integracja z Git dla folderów Git usługi Databricks.
- Biblioteki i zadania: biblioteki można tworzyć zewnętrznie i przekazywać je do usługi Azure Databricks. Te biblioteki mogą być importowane w notesach usługi Azure Databricks lub mogą służyć do tworzenia zadań. Zobacz Instalowanie bibliotek i Zadań Lakeflow.
- Wykonywanie kodu na zdalnej maszynie: możesz uruchomić kod z lokalnego środowiska IDE do interaktywnego tworzenia i testowania. Środowisko IDE może komunikować się z usługą Azure Databricks w celu wykonywania dużych obliczeń w klastrach usługi Azure Databricks. Na przykład można użyć środowiska IntelliJ IDEA z usługą Databricks Connect.
Usługa Databricks udostępnia zestaw zestawów SDK, które obsługują automatyzację i integrację z zewnętrznymi narzędziami. Zestawy SDK usługi Databricks umożliwiają zarządzanie zasobami, takimi jak klastry i biblioteki, kod i inne obiekty obszaru roboczego, obciążenia i zadania itd. Zobacz zestawy SDK usługi Databricks.
Aby uzyskać więcej informacji na temat środowisk IDE, narzędzi deweloperskich i zestawów SDK, zobacz Lokalne narzędzia programistyczne.
Dodatkowe zasoby
- Akademia Databricks oferuje kursy samodzielne i prowadzone przez instruktora na wiele tematów.