Tabele Lakehouse i Delta Lake

Microsoft Fabric Lakehouse to platforma architektury danych do przechowywania i analizowania danych ze strukturą i bez struktury oraz zarządzania nimi w jednej lokalizacji. Aby zapewnić bezproblemowy dostęp do danych we wszystkich aparatach obliczeniowych w usłudze Microsoft Fabric, usługa Delta Lake jest wybierana jako ujednolicony format tabeli.

Zapisywanie danych w usłudze Lakehouse przy użyciu funkcji, takich jak ładowanie do tabel lub metod opisanych w temacie Opcje w celu pobrania danych do usługi Fabric Lakehouse, wszystkie dane są zapisywane w formacie delta.

Ważne

Usługa Microsoft Fabric jest dostępna w wersji zapoznawczej.

Aby uzyskać bardziej kompleksowe wprowadzenie do formatu tabeli usługi Delta Lake, skorzystaj z linków w sekcji Następne kroki.

Dane big data, apache Spark i starsze formaty tabel

Środowisko uruchomieniowe usługi Microsoft Fabric dla platformy Apache Spark używa tej samej podstawy co środowisko uruchomieniowe Azure Synapse Analytics dla platformy Apache Spark, ale zawierają kluczowe różnice w celu zapewnienia bardziej usprawnionego zachowania we wszystkich aparatach w usłudze Microsoft Fabric. W usłudze Microsoft Fabric najważniejsze funkcje wydajności są domyślnie włączone. Zaawansowani użytkownicy platformy Apache Spark mogą przywrócić konfiguracje do poprzednich wartości, aby lepiej dopasować je do określonych scenariuszy.

Usługa Microsoft Fabric Lakehouse i aparat Apache Spark obsługują wszystkie typy tabel, zarówno zarządzane, jak i niezarządzane; Dotyczy to widoków i zwykłych formatów tabel programu Hive innych niż delta. Tabele zdefiniowane przy użyciu formatu plików PARQUET, CSV, AVRO, JSON i dowolnego formatu pliku zgodnego z programem Apache Hive działają zgodnie z oczekiwaniami.

Środowisko interfejsu użytkownika eksploratora usługi Lakehouse różni się w zależności od typu tabeli. Obecnie eksplorator lakehouse renderuje tylko obiekty tabeli.

Różnice konfiguracji w usłudze Azure Synapse Analytics

Poniższa tabela zawiera różnice konfiguracji między usługą Azure Synapse Analytics i środowiskiem uruchomieniowym usługi Microsoft Fabric dla platformy Apache Spark.

Konfiguracja platformy Apache Spark Wartość usługi Microsoft Fabric wartość usługi Azure Synapse Analytics Uwagi
spark.sql.sources.default delta Parkiet Domyślny format tabeli
spark.sql.parquet.vorder.enabled true Nie dotyczy Moduł zapisywania zamówienia wirtualnego
spark.sql.parquet.vorder.dictionaryPageSize 2 GB Nie dotyczy Limit rozmiaru strony słownika dla zamówienia wirtualnego
spark.microsoft.delta.optimizeWrite.enabled true unset (false) Optymalizowanie zapisu

Automatyczne odnajdywanie tabel

Eksplorator usługi Lakehouse udostępnia widok obiektów przypominający drzewo w elemencie Microsoft Fabric Lakehouse. Ma ona kluczową możliwość odnajdywania i wyświetlania tabel opisanych w repozytorium metadanych i w magazynie OneLake. Odwołania do tabeli są wyświetlane w Tables sekcji interfejsu użytkownika eksploratora usługi Lakehouse. Autowykryywanie dotyczy również tabel zdefiniowanych za pomocą skrótów OneLake.

Tabele za pośrednictwem skrótów

Usługa Microsoft Fabric Lakehouse obsługuje tabele zdefiniowane za pośrednictwem skrótów OneLake, aby zapewnić najwyższą zgodność i brak przenoszenia danych. Poniższa tabela zawiera najlepsze rozwiązania dotyczące scenariusza dla każdego typu elementu podczas używania go za pośrednictwem skrótów.

Miejsce docelowe skrótów Gdzie utworzyć skrót Najlepsze rozwiązanie
Tabela usługi Delta Lake Tables Sekcji Jeśli w miejscu docelowym znajduje się wiele tabel, utwórz jeden skrót dla każdej tabeli.
Foldery z plikami Files Sekcji Użyj platformy Apache Spark, aby użyć miejsca docelowego bezpośrednio przy użyciu ścieżek względnych. Załaduj dane do natywnych tabel delty usługi Lakehouse, aby uzyskać maksymalną wydajność.
Starsze tabele technologii Apache Hive Files Sekcji Użyj platformy Apache Spark, aby użyć miejsca docelowego bezpośrednio przy użyciu ścieżek względnych lub utwórz odwołanie do katalogu metadanych przy użyciu CREATE EXTERNAL TABLE składni. Załaduj dane do natywnych tabel delty usługi Lakehouse, aby uzyskać maksymalną wydajność.

Ładowanie do tabel

Usługa Microsoft Fabric Lakehouse zapewnia wygodny i wydajny interfejs użytkownika, który usprawnia ładowanie danych do tabel delty. Funkcja Załaduj do tabel umożliwia wizualizacjom ładowanie typowych formatów plików do funkcji Delta w celu zwiększenia produktywności analitycznej dla wszystkich osób. Aby dowiedzieć się więcej na temat funkcji Load to Tables (Ładowanie do tabel) w szczegółach, przeczytaj dokumentację referencyjną usługi Lakehouse Load to Tables (Ładowanie do tabel ).

Optymalizacja tabeli usługi Delta Lake

Przechowywanie tabel w formie dla szerokiego zakresu scenariuszy analitycznych nie jest drobnym wyczynem. Usługa Microsoft Fabric Lakehouse aktywnie umożliwia ważne parametry, aby zminimalizować typowe problemy związane z tabelami danych big data, takie jak kompaktowanie i małe rozmiary plików, oraz maksymalizować wydajność zapytań. Mimo to istnieje wiele scenariuszy, w których te parametry wymagają zmian. Artykuł dotyczący optymalizacji tabel usługi Delta Lake i zamówienia maszyn wirtualnych obejmuje niektóre kluczowe scenariusze i zawiera szczegółowy przewodnik dotyczący wydajnego utrzymywania tabel różnicowych w celu uzyskania maksymalnej wydajności.

Następne kroki