Udostępnij za pośrednictwem


Nawiązywanie połączenia z danymi za pomocą usługi Azure Machine Learning studio

W tym artykule pokazano, jak uzyskać dostęp do danych za pomocą usługi Azure Machine Learning Studio. Nawiąż połączenie z danymi w usługach Azure Storage przy użyciu magazynów danych usługi Azure Machine Learning. Następnie spakuj te dane dla zadań przepływu pracy uczenia maszynowego przy użyciu zestawów danych usługi Azure Machine Learning.

Ta tabela definiuje i podsumowuje zalety magazynów danych i zestawów danych.

Obiekt opis Świadczenia
Magazyny danych Aby bezpiecznie nawiązać połączenie z usługą magazynu na platformie Azure, zapisz informacje o połączeniu (identyfikator subskrypcji, autoryzację tokenu itp.) w usłudze Key Vault skojarzonej z obszarem roboczym Ponieważ informacje są bezpiecznie przechowywane, poświadczenia uwierzytelniania ani oryginalne źródła danych nie są zagrożone i nie trzeba już kodować tych wartości w skryptach.
Zestawy danych Tworzenie zestawu danych tworzy również odwołanie do lokalizacji źródła danych wraz z kopią metadanych. Zestawy danych umożliwiają uzyskiwanie dostępu do danych podczas trenowania modelu, udostępniania danych i współpracy z innymi użytkownikami oraz używania bibliotek typu open source, takich jak pandas, na potrzeby eksploracji danych. Ponieważ zestawy danych są obliczane z opóźnieniem, a dane pozostają w istniejącej lokalizacji, przechowujesz pojedynczą kopię danych w magazynie. Ponadto nie ponosisz dodatkowych kosztów magazynowania, unikasz niezamierzonych zmian w oryginalnych źródłach danych i poprawiasz szybkość wydajności przepływu pracy uczenia maszynowego.

Aby dowiedzieć się, gdzie magazyny danych i zestawy danych mieszczą się w ogólnym przepływie pracy dostępu do danych usługi Azure Machine Learning, odwiedź stronę Bezpieczny dostęp do danych.

Aby uzyskać więcej informacji na temat zestawu SDK języka Python usługi Azure Machine Learning i środowiska opartego na kodzie, zobacz:

Wymagania wstępne

  • Subskrypcja platformy Azure. Jeśli nie masz subskrypcji platformy Azure, przed rozpoczęciem utwórz bezpłatne konto. Wypróbuj bezpłatną lub płatną wersję usługi Azure Machine Learning

  • Dostęp do usługi Azure Machine Learning Studio

  • Obszar roboczy usługi Azure Machine Learning. Tworzenie zasobów obszaru roboczego

    • Podczas tworzenia obszaru roboczego kontener obiektów blob platformy Azure i udział plików platformy Azure są automatycznie rejestrowane w obszarze roboczym jako magazyny danych. Są one nazwane workspaceblobstore i workspacefilestore, odpowiednio. W przypadku wystarczających zasobów workspaceblobstore magazynu obiektów blob parametr jest ustawiany jako domyślny magazyn danych, który jest już skonfigurowany do użycia. Jeśli potrzebujesz więcej zasobów magazynu obiektów blob, potrzebujesz konta usługi Azure Storage z obsługiwanym typem magazynu.

Tworzenie magazynów danych

Magazyny danych można tworzyć na podstawie tych rozwiązań usługi Azure Storage. W przypadku nieobsługiwanych rozwiązań magazynu i zaoszczędzenia kosztów ruchu wychodzącego danych podczas eksperymentów uczenia maszynowego należy przenieść dane do obsługiwanego rozwiązania usługi Azure Storage. Aby uzyskać więcej informacji na temat magazynów danych, odwiedź ten zasób.

Magazyny danych można tworzyć przy użyciu dostępu opartego na poświadczeniach lub dostępu opartego na tożsamościach.

Utwórz nowy magazyn danych za pomocą programu Azure Machine Learning Studio.

Ważne

Jeśli twoje konto magazynu danych znajduje się w sieci wirtualnej, wymagane są dodatkowe kroki konfiguracyjne, aby upewnić się, że studio może uzyskać dostęp do danych. Odwiedź stronę Izolacja sieci i prywatność , aby uzyskać więcej informacji na temat odpowiednich kroków konfiguracji.

  1. Zaloguj się do usługi Azure Machine Learning Studio.
  2. Wybierz pozycję Dane w okienku po lewej stronie w obszarze Zasoby.
  3. W górnej części wybierz pozycję Magazyny danych.
  4. Wybierz pozycję +Utwórz.
  5. Wypełnij formularz, aby utworzyć i zarejestrować nowy magazyn danych. Formularz jest inteligentnie aktualizowany na podstawie wybranych opcji typu magazynu i typu uwierzytelniania platformy Azure. Aby uzyskać więcej informacji o tym, gdzie znaleźć poświadczenia uwierzytelniania potrzebne do wypełnienia tego formularza, odwiedź sekcję Dostęp do magazynu i uprawnienia.

Ten zrzut ekranu przedstawia panel tworzenia magazynu danych obiektów blob platformy Azure:

Zrzut ekranu przedstawiający panel tworzenia magazynu danych obiektów blob platformy Azure.

Tworzenie zasobów danych

Po utworzeniu magazynu danych utwórz zestaw danych w celu interakcji z danymi. Zestawy danych pakują dane do przypadkowo ocenianego obiektu eksploatacyjnego dla zadań uczenia maszynowego — na przykład trenowania. Odwiedź stronę Tworzenie zestawów danych usługi Azure Machine Learning, aby uzyskać więcej informacji na temat zestawów danych.

Zestawy danych mają dwa typy: FileDataset i TabularDataset. Zestawy plików tworzą odwołania do pojedynczych lub wielu plików lub publicznych adresów URL. Tabelaryczne zestawy danych reprezentują dane w formacie tabelarycznym. Zestawy danych tabelarycznych można tworzyć na podstawie

  • .csv
  • .tsv
  • .parkiet
  • .json plików i z wyników zapytania SQL.

W poniższych krokach opisano sposób tworzenia zestawu danych w usłudze Azure Machine Learning Studio.

Uwaga

Zestawy danych utworzone za pośrednictwem usługi Azure Machine Learning Studio są automatycznie rejestrowane w obszarze roboczym.

  1. Przejdź do usługi Azure Machine Learning Studio

  2. W obszarze Zasoby w obszarze nawigacji po lewej stronie wybierz pozycję Dane. Na karcie Zasoby danych wybierz pozycję Utwórz Zrzut ekranu przedstawiający kartę Tworzenie zasobów danych.

  3. Nadaj zasobowi danych nazwę i opcjonalny opis. Następnie w obszarze Typ wybierz typ zestawu danych, plik lub tabelaryczny. Zrzut ekranu przedstawiający ustawienie nazwy, opisu i typu zasobu danych.

  4. Zostanie otwarte okienko Źródło danych, jak pokazano na poniższym zrzucie ekranu:

Ten zrzut ekranu przedstawiający okienko wyboru źródła danych.

Dostępne są różne opcje źródła danych. W przypadku danych już przechowywanych na platformie Azure wybierz pozycję "Z usługi Azure Storage". Aby przekazać dane z dysku lokalnego, wybierz pozycję "Z plików lokalnych". W przypadku danych przechowywanych w publicznej lokalizacji internetowej wybierz pozycję "Z plików internetowych". Zasób danych można również utworzyć na podstawie bazy danych SQL lub z usługi Azure Open Datasets.

  1. W kroku wyboru pliku wybierz lokalizację, w której platforma Azure powinna przechowywać dane, oraz pliki danych, których chcesz użyć.

    1. Włącz walidację pomijania, jeśli dane są w sieci wirtualnej. Dowiedz się więcej o izolacji i prywatności sieci wirtualnej.
  2. Wykonaj kroki, aby ustawić ustawienia analizowania danych i schemat zasobu danych. Ustawienia są wstępnie wypełniane na podstawie typu pliku i można jeszcze bardziej skonfigurować ustawienia przed utworzeniem zasobu danych.

  3. Po osiągnięciu kroku Przegląd wybierz pozycję Utwórz na ostatniej stronie

Podgląd danych i profil

Po utworzeniu zestawu danych sprawdź, czy możesz wyświetlić podgląd i profil w programie Studio:

  1. Zaloguj się do usługi Azure Machine Learning Studio
  2. W obszarze Zasoby w obszarze nawigacji po lewej stronie wybierz pozycję Dane. Zrzut ekranu wyróżnia pozycję Utwórz na karcie Zasoby danych.
  3. Wybierz nazwę zestawu danych, który chcesz wyświetlić.
  4. Wybierz kartę Eksploruj.
  5. Wybierz kartę Podgląd . Zrzut ekranu przedstawia podgląd zestawu danych.
  6. Wybierz kartę Profil . Zrzut ekranu przedstawiający metadane kolumny zestawu danych na karcie Profil.

Możesz użyć statystyk podsumowania w zestawie danych, aby sprawdzić, czy zestaw danych jest gotowy do uczenia maszynowego. W przypadku kolumn nieliczbowych te statystyki obejmują tylko podstawowe statystyki — na przykład minimalną, maksymalną i liczbę błędów. Kolumny liczbowe oferują momenty statystyczne i szacowane kwantyle.

Profil danych zestawu danych usługi Azure Machine Learning obejmuje:

Uwaga

Puste wpisy są wyświetlane dla funkcji z nieistotnymi typami.

Statystyka opis
Funkcja Nazwa podsumowania kolumny
Profil Wizualizacja w wierszu oparta na typie wywnioskowanym. Ciągi, wartości logiczne i daty mają liczby wartości. Liczba dziesiętna (liczbowa) przybliżyła histogramy. Te wizualizacje zapewniają szybką wiedzę na temat dystrybucji danych
Rozkład typów Liczba wartości w wierszu typów w kolumnie. Wartości null są własnym typem, więc ta wizualizacja może wykryć dziwne lub brakujące wartości
Typ Wywnioskowany typ kolumny. Możliwe wartości to: ciągi, wartości logiczne, daty i liczby dziesiętne
Minimum Minimalna wartość kolumny. Puste wpisy są wyświetlane dla funkcji, których typ nie ma nieodłącznej kolejności (na przykład wartości logicznych)
Maksimum Maksymalna wartość kolumny.
Count Łączna liczba brakujących i niezwiązanych wpisów w kolumnie
Liczba niebrakujących Liczba wpisów w kolumnie, których nie brakuje. Puste ciągi i błędy są traktowane jako wartości, więc nie przyczyniają się do "nie brakuje liczby".
Kwantyle Przybliżone wartości w każdym kwantylu w celu zapewnienia poczucia rozkładu danych
Średnia Średnia arytmetyczna lub średnia kolumny
Odchylenie standardowe Miara ilości rozproszenia lub odmiany danych tej kolumny
Wariancja Miara tego, jak daleko dane tej kolumny rozkładają się na podstawie jej średniej wartości
Skośność Mierzy różnicę danych tej kolumny z rozkładu normalnego
Kurtoza Mierzy stopień "ogona" danych tej kolumny w porównaniu z rozkładem normalnym

Dostęp do magazynu i uprawnienia

Aby zapewnić bezpieczne połączenie z usługą Azure Storage, usługa Azure Machine Learning wymaga uprawnień dostępu do odpowiedniego magazynu danych. Ten dostęp zależy od poświadczeń uwierzytelniania używanych do rejestrowania magazynu danych.

Sieć wirtualna

Jeśli twoje konto magazynu danych znajduje się w sieci wirtualnej, wymagane są dodatkowe kroki konfiguracji, aby upewnić się, że usługa Azure Machine Learning ma dostęp do danych. Zobacz Używanie usługi Azure Machine Learning Studio w sieci wirtualnej, aby upewnić się, że odpowiednie kroki konfiguracji są stosowane podczas tworzenia i rejestrowania magazynu danych.

Sprawdzanie poprawności dostępu

Ostrzeżenie

Dostęp między dzierżawami do kont magazynu nie jest obsługiwany. Jeśli twój scenariusz wymaga dostępu między dzierżawami, skontaktuj się z aliasem zespołu pomocy technicznej ds. danych usługi Azure Machine Learning, aby amldatasupport@microsoft.com uzyskać pomoc dotyczącą niestandardowego rozwiązania kodu.

W ramach początkowego procesu tworzenia i rejestracji magazynu danych usługa Azure Machine Learning automatycznie weryfikuje, czy podstawowa usługa magazynu istnieje i czy jednostka użytkownika (nazwa użytkownika, jednostka usługi lub token SAS) ma dostęp do określonego magazynu.

Po utworzeniu magazynu danych ta walidacja jest wykonywana tylko dla metod, które wymagają dostępu do bazowego kontenera magazynu. Walidacja nie jest wykonywana za każdym razem, gdy są pobierane obiekty magazynu danych. Na przykład walidacja odbywa się podczas pobierania plików z magazynu danych. Jeśli jednak chcesz zmienić domyślny magazyn danych, walidacja nie zostanie wykonana.

Aby uwierzytelnić dostęp do bazowej usługi magazynu, podaj klucz konta, tokeny sygnatur dostępu współdzielonego (SAS) lub jednostkę usługi zgodnie z typem magazynu danych, który chcesz utworzyć. Macierz typów magazynu zawiera listę obsługiwanych typów uwierzytelniania odpowiadających każdemu typowi magazynu danych.

Klucz konta, token SAS i informacje o jednostce usługi można znaleźć w witrynie Azure Portal.

  • Aby uzyskać klucz konta do uwierzytelniania, wybierz pozycję Konta magazynu w okienku po lewej stronie i wybierz konto magazynu, które chcesz zarejestrować

    • Strona Przegląd zawiera informacje, takie jak nazwa konta, kontener i nazwa udziału plików.
    • Rozwiń węzeł Zabezpieczenia i sieć w lewym okienku nawigacyjnym
    • Wybierz pozycję Klucze dostępu.
    • Dostępne wartości klucza służą jako wartości klucza konta
  • Aby uzyskać token SAS na potrzeby uwierzytelniania, wybierz pozycję Konta magazynu w okienku po lewej stronie i wybierz konto magazynu, które chcesz

    • Aby uzyskać wartość klucza dostępu, rozwiń węzeł Zabezpieczenia i sieć w lewym okienku nawigacyjnym
    • Wybierz pozycję Sygnatura dostępu współdzielonego
    • Ukończ proces generowania wartości sygnatury dostępu współdzielonego
  • Aby użyć jednostki usługi do uwierzytelniania, przejdź do Rejestracje aplikacji i wybierz aplikację, której chcesz użyć.

    • Odpowiednia strona Przegląd zawiera wymagane informacje, takie jak identyfikator dzierżawy i identyfikator klienta.

Ważne

  • Aby zmienić klucze dostępu dla konta usługi Azure Storage (klucz konta lub token SAS), pamiętaj o zsynchronizowaniu nowych poświadczeń zarówno z obszarem roboczym, jak i połączonymi z nim magazynami danych. Aby uzyskać więcej informacji, odwiedź stronę synchronizowania zaktualizowanych poświadczeń.
  • W przypadku wyrejestrowania, a następnie ponownego zarejestrowania magazynu danych o tej samej nazwie i ponownej rejestracji nie powiedzie się, usługa Azure Key Vault dla obszaru roboczego może nie mieć włączonego usuwania nietrwałego. Domyślnie usuwanie nietrwałe jest włączone dla wystąpienia magazynu kluczy utworzonego przez obszar roboczy, ale może nie być włączone, jeśli używasz istniejącego magazynu kluczy lub masz obszar roboczy utworzony przed październikiem 2020 r. Aby uzyskać więcej informacji na temat włączania usuwania nietrwałego, odwiedź stronę Włączanie usuwania nietrwałego dla istniejącego magazynu kluczy.

Uprawnienia

W przypadku kontenera obiektów blob platformy Azure i magazynu usługi Azure Data Lake Gen 2 upewnij się, że poświadczenia uwierzytelniania mają dostęp do czytnika danych obiektu blob usługi Storage. Dowiedz się więcej o czytniku danych obiektu blob usługi Storage. Domyślnie token SAS konta nie ma uprawnień.

  • W przypadku dostępu do odczytu danych poświadczenia uwierzytelniania muszą mieć co najmniej uprawnienia listy i odczytu dla kontenerów i obiektów.

  • W przypadku dostępu do zapisu danych wymagane są również uprawnienia do zapisu i dodawania.

Szkolenie przy użyciu zestawów danych

Użyj zestawów danych w eksperymentach uczenia maszynowego na potrzeby trenowania modeli uczenia maszynowego. Dowiedz się więcej na temat trenowania za pomocą zestawów danych.

Następne kroki