Wykonywanie zapytań względem plików usługi Delta Lake (wersja 1) przy użyciu bezserwerowej puli SQL w usłudze Azure Synapse Analytics

Tip

Microsoft Fabric Data Warehouse to magazyn relacyjny w skali przedsiębiorstwa na podstawie bazy danych data lake z architekturą gotową do użycia w przyszłości, wbudowaną sztuczną inteligencją i nowymi funkcjami. Jeśli dopiero zaczynasz korzystać z magazynowania danych, zacznij od Fabric Data Warehouse. Istniejące obciążenia dedykowanej puli SQL mogą zostać zaktualizowane do Fabric, aby uzyskać dostęp do nowych możliwości w zakresie nauki o danych, analizy w czasie rzeczywistym i raportowania.

W tym artykule dowiesz się, jak napisać zapytanie przy użyciu bezserwerowej puli SQL synapse w celu odczytywania plików usługi Delta Lake. Delta Lake to warstwa przechowywania typu open source, która oferuje transakcje ACID (niepodzielność, spójność, izolacja i trwałość) dla Apache Spark i obciążeń związanych z dużymi zbiorami danych. Możesz dowiedzieć się więcej z wideo, jak wykonywać zapytania na tabelach Delta Lake.

Ważne

Bezserwerowe pule SQL mogą wysyłać zapytania do usługi Delta Lake w wersji 1.0. Zmiany wprowadzone od wersji usługi Delta Lake 1.2 (na przykład zmiany nazw kolumn) nie są obsługiwane w trybie bezserwerowym. Jeśli używasz nowszych wersji Delta z wektorami usuwania, punktami kontrolnymi w wersji 2 i innymi, rozważ użycie innego aparatu zapytań, takiego jak punkt końcowy SQL usługi Microsoft Fabric dla Lakehouse.

Bezserwerowa pula SQL w obszarze roboczym usługi Synapse umożliwia odczytywanie danych przechowywanych w formacie Delta Lake i udostępnianie ich narzędziom raportowania. Bezserwerowa pula SQL może odczytywać pliki usługi Delta Lake utworzone przy użyciu platformy Apache Spark, usługi Azure Databricks lub dowolnego innego producenta formatu usługi Delta Lake.

Pule platformy Apache Spark w usłudze Azure Synapse umożliwiają inżynierom danych modyfikowanie plików usługi Delta Lake przy użyciu języków Scala, PySpark i .NET. Bezserwerowe pule SQL ułatwiają analitykom danych tworzenie raportów dotyczących plików usługi Delta Lake utworzonych przez inżynierów danych.

Ważne

Wykonywanie zapytań dotyczących formatu Delta Lake przy użyciu bezserwerowej puli SQL jest funkcjonalnością powszechnie dostępną. Jednak wykonywanie zapytań względem tabel Delta Spark jest nadal dostępne w publicznej wersji testowej i nie jest gotowe do produkcji. Istnieją znane problemy, które mogą wystąpić w przypadku zapytań dotyczących tabel Delta utworzonych za pomocą pul Spark. Zapoznaj się ze znanymi problemami w samopomocy bezserwerowej puli SQL.

Wymagania wstępne

Ważne

Źródła danych można tworzyć tylko w niestandardowych bazach danych (nie w bazie danych master lub bazach danych replikowanych z pul platformy Apache Spark).

Aby użyć przykładów w tym artykule, należy wykonać następujące czynności:

Utwórz bazę danych ze źródłem danych, które odwołuje się do konta magazynowego NYC Yellow Taxi.
Zainicjuj obiekty, wykonując skrypt instalacji w bazie danych utworzonej w kroku 1. Ten skrypt instalacyjny utworzy źródła danych, poświadczenia o zakresie bazy danych i zewnętrzne formaty plików, które są używane w tych przykładach.

Jeśli utworzyłeś swoją bazę danych i przełączyłeś kontekst do swojej bazy danych (używając instrukcji USE database_name lub listy rozwijanej do wyboru bazy danych w niektórym edytorze zapytań), możesz utworzyć zewnętrzne źródło danych razem z głównym identyfikatorem URI zestawu danych i użyć go do wykonywania zapytań na plikach Delta Lake. Na przykład:

CREATE EXTERNAL DATA SOURCE DeltaLakeStorage
WITH ( LOCATION = 'https://<yourstorageaccount>.blob.core.windows.net/delta-lake/' );
GO

SELECT TOP 10 *
FROM OPENROWSET(
        BULK 'covid',
        DATA_SOURCE = 'DeltaLakeStorage',
        FORMAT = 'delta'
    ) as rows;

Jeśli źródło danych jest chronione przy użyciu klucza SAS lub tożsamości niestandardowej, możesz skonfigurować źródło danych przy użyciu poświadczeń o zakresie bazy danych.

Możesz utworzyć zewnętrzne źródło danych, w którym lokalizacja wskazuje bezpośrednio na folder główny magazynu. Po utworzeniu źródła danych zewnętrznych, użyj tego źródła oraz ścieżki względnej do pliku w funkcji OPENROWSET. W ten sposób nie trzeba używać pełnego adresu URI do plików. Następnie można zdefiniować poświadczenia niestandardowe, aby uzyskać dostęp do lokalizacji magazynu.

Czytaj folder Delta Lake

Ważne

Użyj skryptu konfiguracji w wymaganiach wstępnych, aby skonfigurować przykładowe źródła danych i tabele.

Funkcja OPENROWSET umożliwia odczytywanie zawartości plików usługi Delta Lake przez podanie adresu URL do folderu głównego.

Najprostszym sposobem wyświetlenia zawartości DELTA pliku jest podanie adresu URL pliku do funkcji OPENROWSET i określenie DELTA formatu. Jeśli plik jest publicznie dostępny lub jeśli Twoja tożsamość Microsoft Entra może uzyskać dostęp do tego pliku, powinieneś móc zobaczyć zawartość tego pliku przy użyciu zapytania, takiego jak pokazane w poniższym przykładzie.

SELECT TOP 10 *
FROM OPENROWSET(
    BULK '/covid/',
    DATA_SOURCE = 'DeltaLakeStorage',
    FORMAT = 'delta') as rows;

Nazwy kolumn i typy danych są automatycznie odczytywane z plików usługi Delta Lake. Funkcja OPENROWSET używa najlepszych typów odgadnięcia, takich jak VARCHAR(1000) dla kolumn ciągu.

Identyfikator URI w OPENROWSET funkcji musi odwoływać się do głównego folderu usługi Delta Lake, który zawiera podfolder o nazwie _delta_log.

Folder ECDC COVID-19 Delta Lake

Jeśli nie masz tego podfolderu, nie używasz formatu usługi Delta Lake. Możesz przekonwertować zwykłe pliki Parquet w folderze na format usługi Delta Lake przy użyciu skryptu podobnego do następującego przykładowego skryptu języka Python platformy Apache Spark:

%%pyspark
from delta.tables import DeltaTable
deltaTable = DeltaTable.convertToDelta(spark, "parquet.`abfss://delta-lake@sqlondemandstorage.dfs.core.windows.net/covid`")

Aby zwiększyć wydajność zapytań, rozważ określenie jawnych typów w klauzuli WITH.

Uwaga

Bezserwerowa pula SQL usługi Synapse używa wnioskowania schematu do automatycznego określania kolumn i ich typów. Reguły wnioskowania schematu są takie same jak w przypadku plików Parquet. Aby zmapować typ Delta Lake na natywny typ SQL, sprawdź mapowanie typu dla Parquet.

Upewnij się, że masz dostęp do pliku. Jeśli plik jest chroniony przy użyciu klucza sygnatury dostępu współdzielonego lub niestandardowej tożsamości platformy Azure, musisz skonfigurować poświadczenia na poziomie serwera dla logowania SQL.

Ważne

Upewnij się, że używasz sortowania bazy danych UTF-8 (na przykład Latin1_General_100_BIN2_UTF8), ponieważ wartości ciągów w plikach usługi Delta Lake są kodowane przy użyciu kodowania UTF-8. Niezgodność między kodowaniem tekstu w pliku usługi Delta Lake a sortowaniem może spowodować nieoczekiwane błędy konwersji. Domyślne sortowanie bieżącej bazy danych można łatwo zmienić przy użyciu następującej instrukcji języka T-SQL: ALTER DATABASE CURRENT COLLATE Latin1_General_100_BIN2_UTF8; Aby uzyskać więcej informacji na temat sortowania, zobacz Typy sortowania obsługiwane dla usługi Synapse SQL.

Jawne określanie schematu

OPENROWSET Umożliwia jawne określenie kolumn, które mają być odczytywane z pliku przy użyciu WITH klauzuli :

SELECT TOP 10 *
FROM OPENROWSET(
        BULK 'covid',
        DATA_SOURCE = 'DeltaLakeStorage',
        FORMAT = 'delta'
    )
    WITH ( date_rep date,
           cases int,
           geo_id varchar(6)
           ) as rows;

Dzięki jawnej specyfikacji schematu zestawu wyników można zminimalizować rozmiary typów i użyć bardziej precyzyjnych typów VARCHAR(6) dla kolumn ciągów zamiast pesymistycznej VARCHAR(1000). Minimalizacja typów może znacznie poprawić wydajność zapytań.

Ważne

Upewnij się, że jawnie określasz sortowanie UTF-8 (na przykład Latin1_General_100_BIN2_UTF8) dla wszystkich kolumn ciągu w WITH klauzuli lub ustaw sortowanie UTF-8 na poziomie bazy danych. Niezgodność między kodowaniem tekstu w pliku a porządkowaniem kolumn łańcucha znaków może powodować nieoczekiwane błędy konwersji. Domyślne sortowanie bieżącej bazy danych można łatwo zmienić przy użyciu następującej instrukcji języka T-SQL: alter database current collate Latin1_General_100_BIN2_UTF8 Sortowanie typów kolumn można łatwo ustawić przy użyciu następującej definicji: geo_id varchar(6) collate Latin1_General_100_BIN2_UTF8

Zestaw danych

W tym przykładzie używany jest zestaw danych żółtych taksówek w nowym jorku. Oryginalny PARQUET zestaw danych jest konwertowany na DELTA format, a DELTA wersja jest używana w przykładach.

Wykonywanie zapytań dotyczących danych partycjonowanych

Zestaw danych podany w tym przykładzie jest podzielony na oddzielne foldery.

W przeciwieństwie do Parquet, nie trzeba celować w określone partycje przy użyciu funkcji FILEPATH. Funkcja OPENROWSET będzie identyfikować kolumny partycjonowania w strukturze folderów usługi Delta Lake i umożliwia bezpośrednie wykonywanie zapytań dotyczących danych przy użyciu tych kolumn. W tym przykładzie przedstawiono kwoty taryf według roku, miesiąca i payment_type w ciągu pierwszych trzech miesięcy 2017 r.

SELECT
        YEAR(pickup_datetime) AS year,
        passenger_count,
        COUNT(*) AS cnt
FROM  
    OPENROWSET(
        BULK 'yellow',
        DATA_SOURCE = 'DeltaLakeStorage',
        FORMAT='DELTA'
    ) nyc
WHERE
    nyc.year = 2017
    AND nyc.month IN (1, 2, 3)
    AND pickup_datetime BETWEEN CAST('1/1/2017' AS datetime) AND CAST('3/31/2017' AS datetime)
GROUP BY
    passenger_count,
    YEAR(pickup_datetime)
ORDER BY
    YEAR(pickup_datetime),
    passenger_count;

Funkcja OPENROWSET wyeliminowa partycje, które nie pasują do klauzuli year i month w klauzuli where. Ta technika oczyszczania plików/partycji znacznie zmniejszy zestaw danych, poprawi wydajność i obniży koszt zapytania.

Nazwa folderu w funkcji OPENROWSET (yellow w tym przykładzie) jest połączona przy użyciu LOCATION w źródle danych DeltaLakeStorage i musi odwoływać się do głównego folderu Delta Lake zawierającego podfolder o nazwie _delta_log.

Yellow Taxi Delta Lake - folder

Jeśli nie masz tego podfolderu, nie używasz formatu usługi Delta Lake. Możesz przekonwertować zwykłe pliki Parquet w folderze na format usługi Delta Lake przy użyciu następującego skryptu języka Python platformy Apache Spark:

%%pyspark
from delta.tables import DeltaTable
deltaTable = DeltaTable.convertToDelta(spark, "parquet.`abfss://delta-lake@sqlondemandstorage.dfs.core.windows.net/yellow`", "year INT, month INT")

Drugi argument DeltaTable.convertToDeltaLake funkcji reprezentuje kolumny partycjonowania (rok i miesiąc), które są częścią wzorca folderu (year=*/month=* w tym przykładzie) i ich typów.

Ograniczenia

Zapoznaj się z ograniczeniami i znanymi problemami na stronie pomocy samodzielnej bezserwerowej puli SQL usługi Synapse.

Przejdź do następnego artykułu, aby dowiedzieć się, jak wykonywać zapytania dotyczące zagnieżdżonych typów Parquet. Jeśli chcesz kontynuować tworzenie rozwiązania usługi Delta Lake, dowiedz się, jak tworzyć widoki lub tabele zewnętrzne w folderze usługi Delta Lake.

Opinia

Czy ta strona była pomocna?

Last updated on 2025-04-04

Wykonywanie zapytań względem plików usługi Delta Lake (wersja 1) przy użyciu bezserwerowej puli SQL w usłudze Azure Synapse Analytics

Wymagania wstępne

Czytaj folder Delta Lake

Jawne określanie schematu

Zestaw danych

Wykonywanie zapytań dotyczących danych partycjonowanych

Ograniczenia

Powiązana zawartość

Opinia

Dodatkowe zasoby