Optymalizowanie źródeł

Dla każdego źródła z wyjątkiem Azure SQL Database zaleca się zachowanie opcji Użyj bieżącej partycji jako wybranej wartości. Podczas odczytywania ze wszystkich innych systemów źródłowych przepływy danych automatycznie partycjonują dane równomiernie na podstawie rozmiaru danych. Nowa partycja jest tworzona dla około 128 MB danych. Wraz ze wzrostem rozmiaru danych liczba partycji rośnie.

Wszelkie niestandardowe partycjonowanie odbywa się po odczytaniu danych przez platformę Spark i negatywnie wpłynie na wydajność przepływu danych. Ponieważ dane są równomiernie partycjonowane podczas odczytu, nie jest zalecane, chyba że najpierw rozumiesz kształt i kardynalność danych.

Uwaga

Szybkość odczytu może być ograniczona przez przepływność systemu źródłowego.

źródła bazy danych Azure SQL

Azure SQL Database ma unikatową opcję partycjonowania o nazwie "Source" partitioning (Partycjonowanie źródłowe). Włączenie partycjonowania źródłowego może poprawić czas odczytu z bazy danych Azure SQL, włączając połączenia równoległe w systemie źródłowym. Określ liczbę partycji i sposób partycjonowania danych. Użyj kolumny partycji z wysoką kardynalnością. Możesz również wprowadzić zapytanie zgodne ze schematem partycjonowania tabeli źródłowej.

Porada

W przypadku partycjonowania źródłowego operacje we/wy SQL Server są wąskim gardłem. Dodanie zbyt wielu partycji może nasycić źródłową bazę danych. Zazwyczaj cztery lub pięć partycji jest idealnym rozwiązaniem w przypadku korzystania z tej opcji.

Partycjonowanie źródłowe

Poziom izolacji

Poziom izolacji odczytu w systemie źródłowym Azure SQL ma wpływ na wydajność. Wybranie opcji "Odczyt niezatwierdzony" zapewni najszybszą wydajność i uniemożliwi blokady bazy danych. Aby dowiedzieć się więcej na temat poziomów izolacji SQL, zobacz Opis poziomów izolacji.

Odczytywanie przy użyciu zapytania

Możesz odczytać z bazy danych Azure SQL przy użyciu tabeli lub zapytania SQL. Jeśli wykonujesz zapytanie SQL, zapytanie musi zostać ukończone przed rozpoczęciem przekształcania. Zapytania SQL mogą być przydatne do wypychania operacji, które mogą być wykonywane szybciej i zmniejszać ilość danych odczytywanych z SQL Server, takich jak SELECT, WHERE i JOIN instrukcji. Podczas wypychania operacji w dół utracisz możliwość śledzenia pochodzenia i wydajności przekształceń, zanim dane dojdą do przepływu danych.

źródła usługi Azure Synapse Analytics

W przypadku korzystania z usługi Azure Synapse Analytics w opcjach źródłowych istnieje ustawienie o nazwie Włącz przemieszczanie. Dzięki temu usługa może odczytywać dane z usługi Synapse, Staging co znacznie poprawia wydajność odczytu przy użyciu najbardziej wydajnych funkcji ładowania zbiorczego, takich jak CETAS i POLECENIE COPY. Włączenie Staging wymaga określenia lokalizacji przejściowej Azure Blob Storage lub Azure Data Lake Storage gen2 w ustawieniach działania przepływu danych.

Włączanie trybu przejściowego

Źródła oparte na plikach

Parquet a tekst rozdzielany

Chociaż przepływy danych obsługują różne typy plików, format Parquet natywny dla platformy Spark jest zalecany do optymalnego czasu odczytu i zapisu.

Jeśli używasz tego samego przepływu danych w zestawie plików, zalecamy odczytywanie z folderu przy użyciu ścieżek wieloznacznych lub odczytywanie z listy plików. Jedno uruchomienie działania przepływu danych może przetwarzać wszystkie pliki wsadowe. Więcej informacji na temat konfigurowania tych ustawień można znaleźć w sekcji Przekształcanie źródła w dokumentacji łącznika Azure Blob Storage.

Jeśli to możliwe, unikaj używania działania For-Each do uruchamiania przepływów danych w zestawie plików. Spowoduje to, że każda iteracja for-each będzie uruchamiać własny klaster Spark, który często nie jest konieczny i może być kosztowny.

Wbudowane zestawy danych a udostępnione zestawy danych

Zestawy danych usług ADF i Synapse są zasobami udostępnionymi w fabrykach i obszarach roboczych. Jednak podczas odczytywania dużej liczby folderów źródłowych i plików z rozdzielonymi tekstami i źródłami JSON można poprawić wydajność odnajdywania plików przepływu danych, ustawiając opcję "Projektowany schemat użytkownika" w projekcji | Okno dialogowe Opcje schematu. Ta opcja wyłącza domyślne automatyczne odnajdywanie schematu usługi ADF i znacznie poprawi wydajność odnajdywania plików. Przed ustawieniem tej opcji należy zaimportować projekcję, aby usługa ADF ma istniejący schemat do projekcji. Ta opcja nie działa z dryfem schematu.

Następne kroki

Zobacz inne artykuły Przepływ danych związane z wydajnością: