Tabele Lakehouse i Delta Lake
Microsoft Fabric Lakehouse to platforma architektury danych do przechowywania i analizowania danych ze strukturą i bez struktury oraz zarządzania nimi w jednej lokalizacji. Aby zapewnić bezproblemowy dostęp do danych we wszystkich aparatach obliczeniowych w usłudze Microsoft Fabric, usługa Delta Lake jest wybierana jako ujednolicony format tabeli.
Zapisywanie danych w usłudze Lakehouse przy użyciu funkcji, takich jak ładowanie do tabel lub metod opisanych w temacie Opcje w celu pobrania danych do usługi Fabric Lakehouse, wszystkie dane są zapisywane w formacie delta.
Ważne
Usługa Microsoft Fabric jest dostępna w wersji zapoznawczej.
Aby uzyskać bardziej kompleksowe wprowadzenie do formatu tabeli usługi Delta Lake, skorzystaj z linków w sekcji Następne kroki.
Dane big data, apache Spark i starsze formaty tabel
Środowisko uruchomieniowe usługi Microsoft Fabric dla platformy Apache Spark używa tej samej podstawy co środowisko uruchomieniowe Azure Synapse Analytics dla platformy Apache Spark, ale zawierają kluczowe różnice w celu zapewnienia bardziej usprawnionego zachowania we wszystkich aparatach w usłudze Microsoft Fabric. W usłudze Microsoft Fabric najważniejsze funkcje wydajności są domyślnie włączone. Zaawansowani użytkownicy platformy Apache Spark mogą przywrócić konfiguracje do poprzednich wartości, aby lepiej dopasować je do określonych scenariuszy.
Usługa Microsoft Fabric Lakehouse i aparat Apache Spark obsługują wszystkie typy tabel, zarówno zarządzane, jak i niezarządzane; Dotyczy to widoków i zwykłych formatów tabel programu Hive innych niż delta. Tabele zdefiniowane przy użyciu formatu plików PARQUET, CSV, AVRO, JSON i dowolnego formatu pliku zgodnego z programem Apache Hive działają zgodnie z oczekiwaniami.
Środowisko interfejsu użytkownika eksploratora usługi Lakehouse różni się w zależności od typu tabeli. Obecnie eksplorator lakehouse renderuje tylko obiekty tabeli.
Różnice konfiguracji w usłudze Azure Synapse Analytics
Poniższa tabela zawiera różnice konfiguracji między usługą Azure Synapse Analytics i środowiskiem uruchomieniowym usługi Microsoft Fabric dla platformy Apache Spark.
Konfiguracja platformy Apache Spark | Wartość usługi Microsoft Fabric | wartość usługi Azure Synapse Analytics | Uwagi |
---|---|---|---|
spark.sql.sources.default | delta | Parkiet | Domyślny format tabeli |
spark.sql.parquet.vorder.enabled | true | Nie dotyczy | Moduł zapisywania zamówienia wirtualnego |
spark.sql.parquet.vorder.dictionaryPageSize | 2 GB | Nie dotyczy | Limit rozmiaru strony słownika dla zamówienia wirtualnego |
spark.microsoft.delta.optimizeWrite.enabled | true | unset (false) | Optymalizowanie zapisu |
Automatyczne odnajdywanie tabel
Eksplorator usługi Lakehouse udostępnia widok obiektów przypominający drzewo w elemencie Microsoft Fabric Lakehouse. Ma ona kluczową możliwość odnajdywania i wyświetlania tabel opisanych w repozytorium metadanych i w magazynie OneLake. Odwołania do tabeli są wyświetlane w Tables
sekcji interfejsu użytkownika eksploratora usługi Lakehouse. Autowykryywanie dotyczy również tabel zdefiniowanych za pomocą skrótów OneLake.
Tabele za pośrednictwem skrótów
Usługa Microsoft Fabric Lakehouse obsługuje tabele zdefiniowane za pośrednictwem skrótów OneLake, aby zapewnić najwyższą zgodność i brak przenoszenia danych. Poniższa tabela zawiera najlepsze rozwiązania dotyczące scenariusza dla każdego typu elementu podczas używania go za pośrednictwem skrótów.
Miejsce docelowe skrótów | Gdzie utworzyć skrót | Najlepsze rozwiązanie |
---|---|---|
Tabela usługi Delta Lake | Tables Sekcji |
Jeśli w miejscu docelowym znajduje się wiele tabel, utwórz jeden skrót dla każdej tabeli. |
Foldery z plikami | Files Sekcji |
Użyj platformy Apache Spark, aby użyć miejsca docelowego bezpośrednio przy użyciu ścieżek względnych. Załaduj dane do natywnych tabel delty usługi Lakehouse, aby uzyskać maksymalną wydajność. |
Starsze tabele technologii Apache Hive | Files Sekcji |
Użyj platformy Apache Spark, aby użyć miejsca docelowego bezpośrednio przy użyciu ścieżek względnych lub utwórz odwołanie do katalogu metadanych przy użyciu CREATE EXTERNAL TABLE składni. Załaduj dane do natywnych tabel delty usługi Lakehouse, aby uzyskać maksymalną wydajność. |
Ładowanie do tabel
Usługa Microsoft Fabric Lakehouse zapewnia wygodny i wydajny interfejs użytkownika, który usprawnia ładowanie danych do tabel delty. Funkcja Załaduj do tabel umożliwia wizualizacjom ładowanie typowych formatów plików do funkcji Delta w celu zwiększenia produktywności analitycznej dla wszystkich osób. Aby dowiedzieć się więcej na temat funkcji Load to Tables (Ładowanie do tabel) w szczegółach, przeczytaj dokumentację referencyjną usługi Lakehouse Load to Tables (Ładowanie do tabel ).
Optymalizacja tabeli usługi Delta Lake
Przechowywanie tabel w formie dla szerokiego zakresu scenariuszy analitycznych nie jest drobnym wyczynem. Usługa Microsoft Fabric Lakehouse aktywnie umożliwia ważne parametry, aby zminimalizować typowe problemy związane z tabelami danych big data, takie jak kompaktowanie i małe rozmiary plików, oraz maksymalizować wydajność zapytań. Mimo to istnieje wiele scenariuszy, w których te parametry wymagają zmian. Artykuł dotyczący optymalizacji tabel usługi Delta Lake i zamówienia maszyn wirtualnych obejmuje niektóre kluczowe scenariusze i zawiera szczegółowy przewodnik dotyczący wydajnego utrzymywania tabel różnicowych w celu uzyskania maksymalnej wydajności.
Następne kroki
Opinia
Prześlij i wyświetl opinię dla