Analizowanie danych przy użyciu bezserwerowej puli SQL

Z tego samouczka dowiesz się, jak analizować dane za pomocą bezserwerowej puli SQL.

Wbudowana bezserwerowa pula SQL

Bezserwerowe pule SQL umożliwiają korzystanie z bazy danych SQL bez konieczności rezerwowania pojemności. Rozliczenia bezserwerowej puli SQL są oparte na ilości danych przetwarzanych w celu uruchomienia zapytania, a nie liczby węzłów używanych do uruchomienia zapytania.

Każdy obszar roboczy jest dostarczany ze wstępnie skonfigurowaną bezserwerową pulą SQL o nazwie Wbudowana.

Analizowanie danych taksówek NYC za pomocą bezserwerowej puli SQL

  1. W Synapse Studio przejdź do centrum Programowanie

  2. Utwórz nowy skrypt SQL.

  3. Wklej następujący kod do skryptu.

    SELECT
        TOP 100 *
    FROM
        OPENROWSET(
            BULK 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet',
            FORMAT='PARQUET'
        ) AS [result]
    
  4. Wybierz pozycję Uruchom.

Eksploracja danych to tylko uproszczony scenariusz, w którym można zrozumieć podstawowe cechy danych. Dowiedz się więcej o eksploracji i analizie danych w tym samouczku.

Tworzenie bazy danych eksploracji danych

Zawartość plików można przeglądać bezpośrednio za pośrednictwem master bazy danych. W przypadku niektórych prostych scenariuszy eksploracji danych nie trzeba tworzyć oddzielnej bazy danych. Jednak w miarę kontynuowania eksploracji danych warto utworzyć niektóre obiekty narzędziowe, takie jak:

  • Zewnętrzne źródła danych reprezentujące nazwane odwołania dla kont magazynu.
  • Poświadczenia o zakresie bazy danych, które umożliwiają określenie sposobu uwierzytelniania w zewnętrznym źródle danych.
  • Użytkownicy bazy danych z uprawnieniami dostępu do niektórych źródeł danych lub obiektów bazy danych.
  • Widoki narzędzi, procedury i funkcje, których można używać w zapytaniach.
  1. master Użyj bazy danych, aby utworzyć oddzielną bazę danych dla niestandardowych obiektów bazy danych. Nie można utworzyć niestandardowych obiektów bazy danych w master bazie danych.

    CREATE DATABASE DataExplorationDB 
                    COLLATE Latin1_General_100_BIN2_UTF8
    

    Ważne

    Użyj sortowania z sufiksem _UTF8 , aby upewnić się, że tekst UTF-8 został poprawnie przekonwertowany na VARCHAR kolumny. Latin1_General_100_BIN2_UTF8 zapewnia najlepszą wydajność zapytań odczytujących dane z plików Parquet i kontenerów usługi Azure Cosmos DB. Aby uzyskać więcej informacji na temat zmieniania sortowania, zobacz Typy sortowania obsługiwane dla usługi Synapse SQL.

  2. Przełącz kontekst bazy danych z master na DataExplorationDB przy użyciu następującego polecenia. Możesz również użyć kontrolki interfejsu użytkownika , aby przełączyć bieżącą bazę danych:

    USE DataExplorationDB
    
  3. W DataExplorationDBprogramie utwórz obiekty narzędziowe, takie jak poświadczenia i źródła danych.

    CREATE EXTERNAL DATA SOURCE ContosoLake
    WITH ( LOCATION = 'https://contosolake.dfs.core.windows.net')
    

    Uwaga

    Zewnętrzne źródło danych można utworzyć bez poświadczeń. Jeśli poświadczenie nie istnieje, tożsamość obiektu wywołującego będzie używana do uzyskiwania dostępu do zewnętrznego źródła danych.

  4. Opcjonalnie użyj nowo utworzonej DataExplorationDB bazy danych, aby utworzyć identyfikator logowania dla użytkownika, DataExplorationDB który będzie uzyskiwać dostęp do danych zewnętrznych:

    CREATE LOGIN data_explorer WITH PASSWORD = 'My Very Strong Password 1234!';
    

    Następnie utwórz użytkownika bazy danych dla DataExplorationDB powyższego identyfikatora logowania i przyznaj ADMINISTER DATABASE BULK OPERATIONS uprawnienie.

    CREATE USER data_explorer FOR LOGIN data_explorer;
    GO
    GRANT ADMINISTER DATABASE BULK OPERATIONS TO data_explorer;
    GO
    
  5. Zapoznaj się z zawartością pliku przy użyciu ścieżki względnej i źródła danych:

    SELECT
        TOP 100 *
    FROM
        OPENROWSET(
                BULK '/users/NYCTripSmall.parquet',
                DATA_SOURCE = 'ContosoLake',
                FORMAT='PARQUET'
        ) AS [result]
    
  6. Opublikuj zmiany w obszarze roboczym.

Baza danych eksploracji danych to prosty symbol zastępczy, w którym można przechowywać obiekty narzędziowe. Pula SQL usługi Synapse umożliwia znacznie więcej pracy i tworzenie Data Warehouse logicznej — warstwy relacyjnej opartej na źródłach danych platformy Azure. Dowiedz się więcej o tworzeniu magazynu danych logicznych w tym samouczku.

Następne kroki