Tabele Lakehouse i Delta Lake
Microsoft Fabric Lakehouse to platforma architektury danych do przechowywania danych, zarządzania nimi i analizowania danych ustrukturyzowanych i nieustrukturyzowanych w jednej lokalizacji. Aby zapewnić bezproblemowy dostęp do danych we wszystkich aparatach obliczeniowych w usłudze Microsoft Fabric, usługa Delta Lake jest wybierana jako ujednolicony format tabeli.
Zapisywanie danych w usłudze Lakehouse przy użyciu funkcji, takich jak Ładowanie do tabel lub metod opisanych w temacie Opcje w celu uzyskania danych do usługi Fabric Lakehouse, wszystkie dane są zapisywane w formacie delta.
Aby zapoznać się z bardziej kompleksowym wprowadzeniem do formatu tabeli usługi Delta Lake, skorzystaj z linków w sekcji Następne kroki.
Dane big data, apache Spark i starsze formaty tabel
Środowisko uruchomieniowe usługi Microsoft Fabric dla platformy Apache Spark używa tej samej podstawy co środowisko uruchomieniowe usługi Azure Synapse Analytics dla platformy Apache Spark, ale zawiera kluczowe różnice w celu zapewnienia bardziej usprawnionego zachowania we wszystkich aparatach w usłudze Microsoft Fabric. W usłudze Microsoft Fabric kluczowe funkcje wydajności są domyślnie włączone. Zaawansowani użytkownicy platformy Apache Spark mogą przywrócić konfiguracje do poprzednich wartości, aby lepiej dopasować je do określonych scenariuszy.
Usługa Microsoft Fabric Lakehouse i aparat Apache Spark obsługują wszystkie typy tabel, zarówno zarządzane, jak i niezarządzane; Obejmuje to widoki i zwykłe formaty tabel programu Hive inne niż delta. Tabele zdefiniowane przy użyciu formatu plików PARQUET, CSV, AVRO, JSON i dowolnego formatu pliku zgodnego z usługą Apache Hive działają zgodnie z oczekiwaniami.
Środowisko interfejsu użytkownika eksploratora usługi Lakehouse różni się w zależności od typu tabeli. Obecnie eksplorator lakehouse renderuje tylko obiekty tabeli.
Różnice konfiguracji w usłudze Azure Synapse Analytics
Poniższa tabela zawiera różnice konfiguracji między usługą Azure Synapse Analytics i środowiskiem uruchomieniowym usługi Microsoft Fabric dla platformy Apache Spark.
Konfiguracja platformy Apache Spark | Wartość usługi Microsoft Fabric | Wartość usługi Azure Synapse Analytics | Uwagi |
---|---|---|---|
spark.sql.sources.default | delta | parkiet | Domyślny format tabeli |
spark.sql.parquet.vorder.enabled | prawda | Nie dotyczy | Moduł zapisywania zamówień wirtualnych |
spark.sql.parquet.vorder.dictionaryPageSize | 2 GB | Nie dotyczy | Limit rozmiaru strony słownika dla zamówienia wirtualnego |
spark.microsoft.delta.optimizeWrite.enabled | prawda | unset (false) | Optymalizowanie zapisu |
Automatyczne odnajdywanie tabel
Eksplorator usługi Lakehouse udostępnia widok podobny do drzewa obiektów w elemencie Microsoft Fabric Lakehouse. Ma ona kluczową możliwość odnajdywania i wyświetlania tabel opisanych w repozytorium metadanych i w magazynie OneLake. Odwołania do tabeli są wyświetlane w Tables
sekcji interfejsu użytkownika eksploratora usługi Lakehouse. Automatyczne odnajdywanie dotyczy również tabel zdefiniowanych za pomocą skrótów OneLake.
Tabele na skrótach
Usługa Microsoft Fabric Lakehouse obsługuje tabele zdefiniowane za pośrednictwem skrótów OneLake w celu zapewnienia najwyższej zgodności i braku przenoszenia danych. Poniższa tabela zawiera najlepsze rozwiązania dotyczące scenariusza dla każdego typu elementu podczas korzystania ze skrótów.
Miejsce docelowe skrótów | Gdzie utworzyć skrót | Najlepsze rozwiązanie |
---|---|---|
Tabela usługi Delta Lake | Tables sekcja |
Jeśli w miejscu docelowym znajduje się wiele tabel, utwórz jeden skrót dla każdej tabeli. |
Foldery z plikami | Files sekcja |
Użyj platformy Apache Spark, aby używać miejsca docelowego bezpośrednio przy użyciu ścieżek względnych. Załaduj dane do natywnych tabel delty usługi Lakehouse, aby uzyskać maksymalną wydajność. |
Starsze tabele apache Hive | Files sekcja |
Użyj platformy Apache Spark, aby użyć miejsca docelowego bezpośrednio przy użyciu ścieżek względnych lub utworzyć odwołanie do wykazu metadanych przy użyciu CREATE EXTERNAL TABLE składni. Załaduj dane do natywnych tabel delty usługi Lakehouse, aby uzyskać maksymalną wydajność. |
Ładowanie do tabel
Usługa Microsoft Fabric Lakehouse udostępnia wygodny i wydajny interfejs użytkownika, aby usprawnić ładowanie danych do tabel delty. Funkcja Załaduj do tabel umożliwia wizualizacjom ładowanie typowych formatów plików do funkcji Delta w celu zwiększenia produktywności analitycznej dla wszystkich osób. Aby dowiedzieć się więcej na temat funkcji Załaduj do tabel, przeczytaj dokumentację referencyjną usługi Lakehouse Load to Tables .
Optymalizacja tabeli usługi Delta Lake
Przechowywanie tabel w kształcie dla szerokiego zakresu scenariuszy analitycznych nie jest drobnym wyczynem. Usługa Microsoft Fabric Lakehouse aktywnie umożliwia ważne parametry w celu zminimalizowania typowych problemów związanych z tabelami danych big data, takich jak kompaktowanie i małe rozmiary plików oraz maksymalizowanie wydajności zapytań. Mimo to istnieje wiele scenariuszy, w których te parametry wymagają zmian. Artykuł Dotyczący optymalizacji tabel usługi Delta Lake i zamówienia wirtualnego obejmuje niektóre kluczowe scenariusze i zawiera szczegółowy przewodnik dotyczący wydajnego utrzymywania tabel różnicowych w celu uzyskania maksymalnej wydajności.