Samouczek: używanie notesu z platformą Apache Spark do wykonywania zapytań dotyczących bazy danych KQL

Ważne

Usługa Microsoft Fabric jest dostępna w wersji zapoznawczej.

Notesy to zarówno czytelne dokumenty zawierające opisy analizy danych, jak i wyniki, a także dokumenty wykonywalne, które można uruchomić w celu przeprowadzenia analizy danych. Z tego artykułu dowiesz się, jak używać notesu usługi Microsoft Fabric do odczytywania i zapisywania danych w bazie danych KQL przy użyciu platformy Apache Spark. W tym samouczku są używane wstępnie utworzone zestawy danych i notesy zarówno w analizie w czasie rzeczywistym, jak i środowiskach Inżynieria danych w usłudze Microsoft Fabric. Aby uzyskać więcej informacji na temat notesów, zobacz Jak używać notesów usługi Microsoft Fabric.

W szczególności dowiesz się, jak wykonywać następujące działania:

  • Tworzenie bazy danych KQL
  • Importowanie notesu
  • Zapisywanie danych w bazie danych KQL przy użyciu platformy Apache Spark
  • Wykonywanie zapytań dotyczących danych z bazy danych KQL

Wymagania wstępne

1 — Tworzenie bazy danych KQL

  1. Otwórz przełącznik środowiska w dolnej części okienka nawigacji i wybierz pozycję Analiza w czasie rzeczywistym.

  2. Wybierz kafelek Baza danych KQL (wersja zapoznawcza).

    Zrzut ekranu przedstawiający nowy kafelek bazy danych KQL w usłudze Real-Time Analytics.

  3. W polu Nazwa bazy danych KQL wprowadź ciąg nycGreenTaxi, a następnie wybierz pozycję Utwórz.

    Baza danych KQL została utworzona w kontekście wybranego obszaru roboczego.

  4. Skopiuj identyfikator URI zapytania z karty szczegółów bazy danych na pulpicie nawigacyjnym bazy danych i wklej go gdzieś, jak notatnik, aby użyć go w późniejszym kroku.

     Zrzut ekranu przedstawiający kartę szczegółów bazy danych zawierającą szczegóły bazy danych. Wyróżniono opcję Identyfikator URI zapytania o nazwie Kopiuj identyfikator URI.

2 — Pobieranie notesu NYC GreenTaxi

Utworzyliśmy przykładowy notes, który przeprowadzi Cię przez wszystkie kroki niezbędne do załadowania danych do bazy danych przy użyciu łącznika platformy Spark.

  1. Otwórz repozytorium przykładów usługi Fabric w witrynie GitHub, aby pobrać notes NYC GreenTaxi KQL.

    Zrzut ekranu przedstawiający repozytorium GitHub z notesem NYC GreenTaxi. Opcja Raw (Nieprzetworzone) jest wyróżniona.

  2. Zapisz notes lokalnie na urządzeniu.

    Uwaga

    Notes musi być zapisany w .ipynb formacie pliku.

3 — Importowanie notesu

Pozostała część tego przepływu pracy występuje w sekcji Inżynieria danych produktu i używa notesu platformy Spark do ładowania i wykonywania zapytań o dane w bazie danych KQL.

  1. Otwórz przełącznik środowiska w dolnej części okienka nawigacji i wybierz pozycję Inżynieria danych.

  2. Wybierz pozycję Importuj notes.

    Zrzut ekranu przedstawiający opcje elementów w Inżynieria danych. Wyróżniono element o nazwie Import notebook (Notes importu).

  3. W oknie Stan importu wybierz pozycję Przekaż.

    Zrzut ekranu przedstawiający okno Stan importu. Przycisk o nazwie Przekaż jest wyróżniony.

  4. Wybierz notes NYC GreenTaxi pobrany w poprzednim kroku.

  5. Po zakończeniu importowania wróć do obszaru roboczego, aby otworzyć ten notes.

4 — Pobieranie danych

Aby wykonać zapytanie dotyczące bazy danych przy użyciu łącznika Spark, musisz udzielić dostępu do odczytu i zapisu do kontenera obiektów blob GreenTaxi w Nowym Jorku.

Wybierz przycisk odtwarzania , aby uruchomić następujące komórki, lub wybierz komórkę i naciśnij klawisze Shift+ Enter. Powtórz ten krok dla każdej komórki kodu.

Uwaga

Poczekaj na wyświetlenie znacznika wyboru ukończenia przed uruchomieniem następnej komórki.

  1. Uruchom następującą komórkę, aby włączyć dostęp do kontenera obiektów blob GreenTaxi NYC.

    Zrzut ekranu przedstawiający pierwszą komórkę kodu z informacjami o dostępie do magazynu.

  2. W identyfikatorze KustoURI wklej skopiowany wcześniejidentyfikator URI zapytania zamiast tekstu zastępczego.

  3. Zmień nazwę zastępczej bazy danych na nycGreenTaxi.

  4. Zmień nazwę tabeli zastępczej na GreenTaxiData.

    Zrzut ekranu przedstawiający drugą komórkę kodu z informacjami o docelowej bazie danych. Identyfikator URI zapytania, nazwa bazy danych i nazwa tabeli są wyróżnione.

  5. Uruchom komórkę.

  6. Uruchom następną komórkę, aby zapisać dane w bazie danych. Wykonanie tego kroku może potrwać kilka minut.

    Zrzut ekranu przedstawiający trzecią komórkę kodu z poleceniem mapowania tabeli i pozyskiwania.

Baza danych zawiera teraz dane załadowane do tabeli o nazwie GreenTaxiData.

5 — Uruchamianie notesu

Uruchom pozostałe dwie komórki sekwencyjnie, aby wykonać zapytanie o dane z tabeli. Wyniki pokazują 20 najwyższych i najniższych opłat za taksówkę oraz odległości odnotowane według roku.

Zrzut ekranu przedstawiający czwartą i piątą komórkę kodu z wynikami zapytania.

6 — Czyszczenie zasobów

Wyczyść utworzone elementy, przechodząc do obszaru roboczego, w którym zostały utworzone.

  1. W obszarze roboczym umieść kursor nad notesem, który chcesz usunąć, wybierz menu Więcej [...] >Usuń.

    Zrzut ekranu przedstawiający obszar roboczy z menu rozwijanym notesu NYC GreenTaxi. Wyróżniono opcję Usuń.

  2. Wybierz pozycję Usuń. Nie można odzyskać notesu po jego usunięciu.

Następne kroki