Zarządzanie tabelami w sieci szkieletowej za pomocą funkcji konserwacji tabel
Usługa Lakehouse w usłudze Microsoft Fabric udostępnia funkcję konserwacji tabel, aby efektywnie zarządzać tabelami różnicowymi i zapewnić ich gotowość do analizy. W tym przewodniku opisano funkcję konserwacji tabeli w usłudze Lakehouse i jej możliwości.
Kluczowe możliwości funkcji konserwacji tabeli lakehouse:
- Wykonaj konserwację tabeli ad hoc przy użyciu kontekstowych akcji kliknięcia prawym przyciskiem myszy w tabeli delty w eksploratorze usługi Lakehouse.
- Zastosuj kompaktację bin, kolejność V i nieużywanie starych plików.
Uwaga
W przypadku zaawansowanych zadań konserwacji, takich jak grupowanie wielu poleceń konserwacji tabeli, organizowanie ich na podstawie harmonogramu, zalecane jest podejście skoncentrowane na kodzie. Aby dowiedzieć się więcej, zobacz artykuł Optymalizacja tabel usługi Delta Lake i Kolejność maszyn wirtualnych. Za pomocą interfejsu API usługi Lakehouse można również zautomatyzować operacje konserwacji tabel, aby dowiedzieć się więcej, zobacz Zarządzanie usługą Lakehouse za pomocą interfejsu API REST usługi Microsoft Fabric.
Typy obsługiwanych plików
Konserwacja tabeli lakehouse ma zastosowanie tylko do tabel usługi delta Lake. Starsze tabele hive używające parqueT, ORC, AVRO, CSV i innych formatów nie są obsługiwane.
Operacje konserwacji tabel
Funkcja konserwacji tabeli oferuje trzy operacje.
- Optymalizacja: konsoliduje wiele małych plików Parquet w duży plik. Aparaty przetwarzania danych big data i wszystkie aparaty sieci szkieletowej korzystają z większych rozmiarów plików. Pliki o rozmiarze powyżej 128 MB i optymalnie zbliżone do 1 GB zwiększają kompresję i dystrybucję danych w węzłach klastra. Zmniejsza to konieczność skanowania wielu małych plików pod kątem wydajnych operacji odczytu. Najlepszym rozwiązaniem jest uruchamianie strategii optymalizacji po załadowaniu dużych tabel.
- Kolejność V: Stosuje zoptymalizowane sortowanie, kodowanie i kompresję do plików Delta parquet, aby umożliwić szybkie operacje odczytu we wszystkich aparatach sieci szkieletowej. Kolejność V-Order odbywa się podczas polecenia optymalizacji i jest przedstawiana jako opcja dla grupy poleceń w środowisku użytkownika. Aby dowiedzieć się więcej na temat zamówienia wirtualnego, zobacz Delta Lake table optimization and V-Order (Optymalizacja tabel usługi Delta Lake) i V-Order (Kolejność maszyn wirtualnych).
- Opróżnij: usuwa stare pliki, do których już nie odwołuje się dziennik tabeli delty. Pliki muszą być starsze niż próg przechowywania, a domyślny próg przechowywania plików wynosi siedem dni. Wszystkie tabele różnicowe w usłudze OneLake mają ten sam okres przechowywania. Okres przechowywania plików jest taki sam, niezależnie od używanego aparatu obliczeniowego sieci szkieletowej. Ta konserwacja jest ważna w celu zoptymalizowania kosztów magazynowania. Ustawienie krótszego okresu przechowywania wpływa na możliwości podróży w czasie usługi Delta. Najlepszym rozwiązaniem jest ustawienie interwału przechowywania na co najmniej siedem dni, ponieważ stare migawki i niezatwierdzone pliki nadal mogą być używane przez równoczesnych czytników tabel i składników zapisywania. Czyszczenie aktywnych plików za pomocą polecenia VACUUM może prowadzić do błędów czytnika, a nawet uszkodzenia tabeli, jeśli niezatwierdzone pliki zostaną usunięte.
Wykonywanie konserwacji tabeli ad hoc w tabeli delty przy użyciu usługi Lakehouse
Jak używać funkcji:
Na koncie usługi Microsoft Fabric przejdź do żądanej usługi Lakehouse.
W sekcji Tabele eksploratora Lakehouse kliknij tabelę prawym przyciskiem myszy lub użyj wielokropka, aby uzyskać dostęp do menu kontekstowego.
Wybierz wpis menu Konserwacja.
Sprawdź opcje konserwacji w oknie dialogowym zgodnie z wymaganiami. Aby uzyskać więcej informacji, zobacz sekcję Operacje konserwacji tabel w tym artykule.
Wybierz pozycję Uruchom teraz , aby wykonać zadanie konserwacji tabeli.
Śledzenie wykonywania zadań konserwacji przez okienko powiadomień lub centrum monitorowania.
Jak działa konserwacja tabeli?
Po wybraniu opcji Uruchom zadanie konserwacji platformy Spark zostanie przesłane do wykonania.
- Zadanie platformy Spark jest przesyłane przy użyciu tożsamości użytkownika i uprawnień tabeli.
- Zadanie platformy Spark zużywa pojemność sieci szkieletowej obszaru roboczego/użytkownika, który przesłał zadanie.
- Jeśli w tabeli jest uruchomione inne zadanie konserwacji, zostanie odrzucone nowe.
- Zadania w różnych tabelach mogą być wykonywane równolegle.
- Zadania konserwacji tabel można łatwo śledzić w centrum monitorowania. Wyszukaj tekst "TableMaintenance" w kolumnie nazwy działania na stronie głównej centrum monitorowania.