Udostępnij za pośrednictwem


Migrowanie obszarów roboczych Community Edition do wersji Free Edition

Ważne

Ta funkcja jest dostępna w publicznej wersji testowej.

Wraz z wydaniem usługi Databricks Free Edition wersja Community Edition (CE) wkrótce zostanie wycofana. Właściciele obszarów roboczych wersji Community Edition powinni jak najszybciej przeprowadzić migrację do wersji Bezpłatnej za pomocą narzędzia do migracji obszaru roboczego. Aby zapoznać się z porównaniem funkcji w wersji Community Edition i Free Edition, zobacz Porównanie funkcji.

Migrowanie obszaru roboczego

Gdy używasz narzędzia do migracji, usługa Azure Databricks tworzy nowy obszar roboczy wersji Bezpłatnej połączony z istniejącym identyfikatorem logowania. Następnie notesy i dane są migrowane do nowego obszaru roboczego wersji Bezpłatnej.

Migrację można uruchomić tylko raz, dlatego przed rozpoczęciem należy wyczyścić nieużywane notesy i tabele. Aby uzyskać listę ograniczeń dotyczących migracji danych, zobacz Ograniczenia.

Krok 1. Przeglądanie bieżącego obszaru roboczego

Przed użyciem narzędzia migracji przejrzyj bieżący obszar roboczy i zidentyfikuj kluczowe notesy i dane, które chcesz zmigrować. Przenieś wszystkie tabele i notesy, które chcesz migrować, z katalogów tmp i Filestore.

Krok 2. Rozpoczęcie procesu migracji

Uwaga / Notatka

Aby korzystać z narzędzia do migracji, musisz być właścicielem obszaru roboczego.

W środowisku CE:

  1. Kliknij pozycję Przeniesienie do darmowej wersji Free Edition na banerze u góry obszaru roboczego Twojej wersji Community Edition.
  2. W oknie dialogowym wyjaśniono proces migracji.
  3. Kliknij pozycję Migruj. Obszar roboczy CE blokuje się, a Ty zostajesz wylogowany. Nie loguj się ponownie do momentu zakończenia migracji.
  4. Po zakończeniu migracji (zazwyczaj poniżej 2 godzin) otrzymasz wiadomość e-mail z linkiem logowania.

Krok 3. Testowanie obszaru roboczego Wersji Bezpłatnej

Po zalogowaniu się zobaczysz teraz zarówno obszary robocze Community Edition, jak i Free Edition. Otwórz oba obszary robocze, aby potwierdzić, że wszystko zostało zmigrowane do obszaru roboczego Wersji Bezpłatna.

  1. Otwórz obszar roboczy>Users>[your-email] i upewnij się, że wszystkie notatniki są obecne.
  2. Otwórz Katalog>Domyślny i upewnij się, że wszystkie tabele są obecne.
  3. Uruchom kluczowe notatniki, komórka po komórce. Jeśli widzisz błędy, zobacz Typowe problemy.

Uwaga / Notatka

Możesz zauważyć, że niektóre tabele zostały podzielone na mniejsze części. Jest to oczekiwane. Zobacz Moja tabela została podzielona na mniejsze elementy , aby dowiedzieć się, jak je ponownie scalić.

Krok 4. Pobieranie brakujących zasobów z obszaru roboczego CE

Jeśli jakiekolwiek zasoby nie zostały przeniesione, możesz pobrać je ręcznie z obszaru roboczego wersji Community Edition i ponownie przekazać je do obszaru roboczego wersji Free Edition.

Po upływie 7 dni obszar roboczy usługi Community Edition zostanie trwale usunięty. Sprawdź, czy cała zawartość została przeniesiona do nowego obszaru roboczego przed tą datą.

Ograniczenia

Migracja może nie przenosić wszystkich zasobów. Przed rozpoczęciem migracji zapoznaj się z następującymi ograniczeniami:

  • Wersja Bezpłatna ma twardy limit 500 tabel. Jeśli masz więcej niż 500 tabel w obszarze roboczym programu Community Edition, nie wszystkie tabele zostaną zmigrowane.
  • W przypadku tabel lub części tabel, które zostały zarchiwizowane, migracja próbuje je zmigrować, ale może być wyświetlana jako błędy w historii zapytań. Automatyczne archiwizowanie odbywa się w przypadku danych, do których nie uzyskiwano dostępu przez 3+ miesiące.
  • Migrowanie plików CSV jest najlepszym rozwiązaniem. Mogą wystąpić przypadki, w których ogranicznik jest niepoprawnie używany, a kolumny są grupowane razem lub nie można utworzyć tabeli.
  • Migrowane są tylko obsługiwane pliki i typy danych. Jeśli potrzebujesz dowolnego z tych zasobów, ręcznie pobierz je z obszaru roboczego przed rozpoczęciem migracji. Następujące typy plików i danych nie są migrowane:
    • .zip pliki, .mp4 filmy wideo, dzienniki systemowe
    • Pliki XML
    • Ukryte pliki lub nieobsługiwane formaty
    • Eksperymenty MLflow
    • Wszystko w obszarze tmp lub Filestore
    • Pliki przechowywane poza dbfs:/

Rozwiązywanie typowych problemów

Nie mogę wybrać rozmiaru klastra lub typu wystąpienia

Wersja Bezpłatna korzysta z obliczeń bezserwerowych, więc nie można dostosować rozmiaru klastra ani typu wystąpienia. Obliczenia bezserwerowe są automatycznie skalowane na podstawie wymagań dotyczących obciążenia.

Wskazówka

Uruchom komórkę, aby automatycznie uruchomić bezserwerowe obliczenia lub wybierz zasób obliczeniowy z menu rozwijanego. Jeśli widzisz opóźnienia lub błędy, zachowaj lekkie obciążenia i spróbuj ponownie po kilku minutach.

Jeden z moich plików nie został przeniesiony

Dzieje się tak, jeśli plik był formatem niestandardowym (na przykład .mp4, ), .zipukrytym lub nieobsługiwanym.

Wskazówka

Pobierz plik z obszaru roboczego usługi Community Edition w ciągu 7 dni i ręcznie przekaż go do obszaru roboczego Wersji Bezpłatnej.

Moja tabela została podzielona na mniejsze elementy

Niektóre tabele CE były wspierane przez duże pliki, które były przechowywane w kawałkach. Podczas migracji usługa Azure Databricks kopiuje każdą część jako własną tabelę.

Wskazówka

Połącz ponownie przy użyciu UNION ALL:

CREATE OR REPLACE TABLE my_full_table AS
SELECT * FROM my_table_part1
UNION ALL
SELECT * FROM my_table_part2
UNION ALL
SELECT * FROM my_table_part3;

Moja tabela została przeniesiona, ale mój laptop nie może jej znaleźć

Twój notebook prawdopodobnie odwołuje się do tabeli według nazwy, ale nazwa tabeli zmieniła się podczas migracji.

W wersji Free Edition wszystkie tabele są tworzone w programie workspace.default.<table_name>. Nazwa tabeli to jedna z następujących:

  • Katalog zawierający plik. Tak więc /my_table/my_table_data_file.parquet nazywa się my_table.
  • Jeśli znajduje się on w bazie głównego systemu plików DBFS, używana jest nazwa pliku. Tak więc /my_table_data_file.parquet nazywa się my_table_data_file.

Wskazówka

  1. Znajdź podstawową tabelę w katalogu.

  2. Skopiuj nazwę pliku tabeli.

  3. Wróć do notesu.

  4. Poinstruuj kod Genie, aby zastąpić wszystkie wystąpienia starej lokalizacji tabeli nową lokalizacją tabeli:

    Replace all references to 'old_table_name' with 'workspace.default.new_table_name' in this notebook
    

Mój kod w notatniku nie działa

Zwykle należy to do dwóch kategorii:

Przypadek 1: Używasz RDD

RDD to starsza abstrakcja platformy Spark i nie są obsługiwane w wersji Bezpłatnej. Zastąp je ramkami danych.

Wskazówka

Poproś kod Genie o pomoc w przekonwertowaniu kodu RDD:

Convert all RDD operations in this notebook to DataFrame operations

Przypadek 2: Używasz języka Scala lub R

Obliczenia bezserwerowe obsługują tylko języki Python i SQL. Jeśli notes używa języka Scala lub R, musisz przetłumaczyć go na język Python.

Wskazówka

Poproś kod Genie o tłumaczenie kodu:

Convert this Scala/R code to Python using PySpark DataFrames

dbutils.fs.mount polecenia kończą się niepowodzeniem

Nowe obszary robocze usługi Azure Databricks nie obsługują starszych instalacji systemu plików DBFS.

Wskazówka

Zamiast tego użyj zewnętrznych lokalizacji i woluminów Unity Catalog. Aby przechowywać zestawy danych lub pliki udostępnione, utwórz wolumin:

CREATE VOLUME IF NOT EXISTS workspace.default.my_volume;

Następnie uzyskaj dostęp do plików przy użyciu:

# Write data
df.write.mode("overwrite").option("path", "/Volumes/workspace/default/my_volume/my_data").saveAsTable("my_table")

# Read data
df = spark.read.table("my_table")

Nie mogę odczytywać ani zapisywać plików w /dbfs/

Wersja Bezpłatna ogranicza bezpośredni dostęp do katalogu głównego systemu plików DBFS w celu zapewnienia bezpieczeństwa.

Wskazówka

Użyj wolumenu Unity Catalog do przechowywania zestawów danych lub plików współdzielonych.

# Create a volume (run once)
spark.sql("CREATE VOLUME IF NOT EXISTS workspace.default.my_data_volume")

# Write files
dbutils.fs.cp("file:/local/path/data.csv", "/Volumes/workspace/default/my_data_volume/")

# Read files
df = spark.read.csv("/Volumes/workspace/default/my_data_volume/data.csv", header=True, inferSchema=True)

Porównanie funkcji

W poniższej tabeli porównaliśmy funkcje dostępne w wersji Community Edition i Wersji Bezpłatnej:

Funkcja Edycja Społecznościowa Wersja bezpłatna
Notebooks
MLflow
Spożycie
Jobs
Pipelines
Dashboards
Dżin
Wyszukiwanie semantyczne
Modelowa obsługa
Ocena modelu
Agents
Katalog Unity
Czyste pokoje
Lakebase
Asystent wiedzy , agent nadzorcy
Funkcje administratora przedsiębiorstwa
Obliczenia klasyczne
Bezserwerowe obliczenia
GPUs Przynieś własne