Uwaga
Dostęp do tej strony wymaga autoryzacji. Może spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Microsoft Fabric Lakehouse to platforma architektury danych do przechowywania danych, zarządzania nimi i analizowania danych ustrukturyzowanych i nieustrukturyzowanych w jednej lokalizacji. Aby zapewnić bezproblemowy dostęp do danych we wszystkich aparatach obliczeniowych w usłudze Microsoft Fabric, usługa Delta Lake jest wybierana jako ujednolicony format tabeli.
Podczas zapisywania danych w usłudze Lakehouse przy użyciu funkcji, takich jak Ładowanie do tabeli lub metod opisanych w temacie Opcje pobierania danych do usługi Fabric Lakehouse, wszystkie dane są zapisywane w formacie delta.
Aby uzyskać bardziej kompleksowe wprowadzenie do formatu tabeli usługi Delta Lake, postępuj zgodnie z linkami do powiązanej zawartości na końcu tego artykułu.
Big data, Apache Spark i formaty starszych tabel
Środowisko uruchomieniowe usługi Microsoft Fabric dla platformy Apache Spark oparte jest na tej samej podstawie co środowisko uruchomieniowe usługi Azure Synapse Analytics dla platformy Apache Spark, ale zawiera kluczowe różnice dla bardziej usprawnionego działania we wszystkich silnikach w usłudze Microsoft Fabric. W usłudze Microsoft Fabric kluczowe funkcje wydajności są domyślnie włączone. Zaawansowani użytkownicy platformy Apache Spark mogą przywrócić konfiguracje do poprzednich wartości, aby lepiej dopasować je do określonych scenariuszy.
Usługa Microsoft Fabric Lakehouse i silnik Apache Spark obsługują wszystkie typy tabel, zarówno zarządzane, jak i niezarządzane; obejmuje to widoki i zwykłe formaty tabel Hive, inne niż Delta. Tabele zdefiniowane przy użyciu formatu PLIKÓW PARQUET, CSV, AVRO, JSON i dowolnego formatu pliku zgodnego z programem Apache Hive działają zgodnie z oczekiwaniami.
Doświadczenie interfejsu użytkownika eksploratora usługi Lakehouse różni się w zależności od typu tabeli. Obecnie eksplorator lakehouse renderuje tylko obiekty tabeli.
Różnice konfiguracji w usłudze Azure Synapse Analytics
Poniższa tabela zawiera różnice konfiguracji między usługą Azure Synapse Analytics i środowiskiem uruchomieniowym usługi Microsoft Fabric dla platformy Apache Spark.
Konfiguracja platformy Apache Spark | Wartość usługi Microsoft Fabric | Wartość usługi Azure Synapse Analytics | Uwagi |
---|---|---|---|
spark.sql.sources.default | delta | parkiet | Domyślny format tabeli |
spark.sql.parquet.vorder.default | prawda | Nie dotyczy | Moduł zapisywania zamówień wirtualnych |
spark.sql.parquet.vorder.dictionaryPageSize | 2 GB | Nie dotyczy | Limit rozmiaru strony słownika dla V-Order |
spark.databricks.delta.optimizeWrite.enabled | prawda | unset (fałsz) | Optymalizowanie zapisu |
Automatyczne odnajdywanie tabel
Eksplorator usługi Lakehouse udostępnia widok podobny do drzewa obiektów w elemencie Microsoft Fabric Lakehouse. Ma ona kluczową możliwość odnajdywania i wyświetlania tabel opisanych w repozytorium metadanych i w magazynie OneLake. Odwołania do tabeli są wyświetlane w sekcji Tables
interfejsu użytkownika eksploratora Lakehouse. Automatyczne odnajdywanie dotyczy również tabel zdefiniowanych za pomocą skrótów OneLake.
Tabele nad skrótami
Usługa Microsoft Fabric Lakehouse obsługuje tabele zdefiniowane za pośrednictwem skrótów OneLake w celu zapewnienia najwyższej zgodności i braku przenoszenia danych. Poniższa tabela zawiera najlepsze rozwiązania dotyczące scenariusza dla każdego typu elementu podczas używania go za pomocą skrótów.
Miejsce docelowe skrótu | Gdzie utworzyć skrót | Najlepsze rozwiązanie |
---|---|---|
Tabela Delta Lake |
Tables sekcja |
Jeśli w miejscu docelowym znajduje się wiele tabel, utwórz jeden skrót dla każdej tabeli. |
Foldery z plikami |
Files sekcja |
Użyj platformy Apache Spark, aby korzystać z miejsca docelowego bezpośrednio przy użyciu ścieżek względnych. Załaduj dane do natywnych dla Lakehouse tabel Delta, aby uzyskać maksymalną wydajność. |
Starsze tabele Apache Hive |
Files sekcja |
Użyj platformy Apache Spark, aby bezpośrednio uzyskać dostęp do celu przy użyciu ścieżek względnych lub utworzyć odwołanie do katalogu metadanych przy użyciu składni CREATE EXTERNAL TABLE . Załaduj dane do natywnych tabel Delta dla systemu Lakehouse, aby uzyskać maksymalną wydajność. |
Ładowanie do tabeli
Usługa Microsoft Fabric Lakehouse udostępnia wygodny i wydajny interfejs użytkownika, aby usprawnić ładowanie danych do tabel delty. Funkcja Załaduj do tabeli umożliwia wizualne wczytywanie typowych formatów plików do Delta w celu zwiększenia produktywności analitycznej dla wszystkich użytkowników. Aby dowiedzieć się więcej na temat funkcji Załaduj do tabeli, przeczytaj dokumentację referencyjną tabel Załaduj do Delta Lake.
Optymalizacja tabeli usługi Delta Lake
Przechowywanie tabel w odpowiedniej formie dla szerokiego zakresu scenariuszy analitycznych nie jest drobnym wyczynem. Usługa Microsoft Fabric Lakehouse aktywnie umożliwia ważne parametry, aby zminimalizować typowe problemy związane z tabelami danych big data, takimi jak kompaktowanie i małe rozmiary plików oraz maksymalizowanie wydajności zapytań. Mimo to istnieje wiele scenariuszy, w których te parametry wymagają zmian. Artykuł optymalizacja tabel Delta Lake i V-Order obejmuje niektóre kluczowe scenariusze i zawiera szczegółowy przewodnik o tym, jak wydajnie utrzymywać tabele Delta, aby osiągnąć maksymalną wydajność.