Nawiązywanie połączenia z danymi za pomocą usługi Azure Machine Learning studio

Z tego artykułu dowiesz się, jak uzyskać dostęp do danych za pomocą programu Azure Machine Edukacja Studio. Połączenie do danych w usługach magazynu na platformie Azure za pomocą polecenia Usługa Azure Machine Edukacja magazyny danych, a następnie spakuj te dane pod kątem zadań w przepływach pracy uczenia maszynowego przy użyciu zestawów danych usługi Azure Machine Edukacja.

W poniższej tabeli zdefiniowano i podsumowano zalety magazynów danych i zestawów danych.

Obiekt opis Świadczenia
Magazyny danych Bezpiecznie nawiąż połączenie z usługą magazynu na platformie Azure, przechowując informacje o połączeniu, takie jak identyfikator subskrypcji i autoryzacja tokenu w usłudze Key Vault skojarzonej z obszarem roboczym Ponieważ informacje są bezpiecznie przechowywane, ty

  • Nie narażaj poświadczeń uwierzytelniania ani oryginalnych źródeł danych na ryzyko.
  • Nie trzeba już kodować ich w skryptach.
  • Zestawy danych Tworząc zestaw danych, tworzysz odwołanie do lokalizacji źródła danych wraz z kopią jego metadanych. Za pomocą zestawów danych, które można

  • Uzyskiwanie dostępu do danych podczas trenowania modelu.
  • Udostępnianie danych i współpraca z innymi użytkownikami.
  • Na potrzeby eksploracji danych użyj bibliotek open source, takich jak pandas.
  • Ponieważ zestawy danych są lazily oceniane, a dane pozostają w istniejącej lokalizacji, ty

  • Zachowaj pojedynczą kopię danych w magazynie.
  • Poniesienie dodatkowych kosztów magazynowania
  • Nie ryzykuj przypadkowej zmiany oryginalnych źródeł danych.
  • Zwiększ szybkość wydajności przepływu pracy uczenia maszynowego.
  • Aby dowiedzieć się, gdzie magazyny danych i zestawy danych pasują do ogólnego przepływu pracy dostępu do danych w usłudze Azure Machine Edukacja, zobacz artykuł Bezpieczny dostęp do danych.

    Aby zapoznać się z pierwszym środowiskiem kodu, zobacz następujące artykuły dotyczące używania zestawu SDK języka Python Edukacja Azure Machine do:

    Wymagania wstępne

    • Subskrypcja platformy Azure. Jeśli nie masz subskrypcji platformy Azure, przed rozpoczęciem utwórz bezpłatne konto. Wypróbuj bezpłatną lub płatną wersję usługi Azure Machine Edukacja.

    • Dostęp do usługi Azure Machine Edukacja Studio.

    • Obszar roboczy usługi Azure Machine Learning. Tworzenie zasobów obszaru roboczego.

      • Podczas tworzenia obszaru roboczego kontener obiektów blob platformy Azure i udział plików platformy Azure są automatycznie rejestrowane jako magazyny danych w obszarze roboczym. Są one nazwane workspaceblobstore i workspacefilestore, odpowiednio. Jeśli magazyn obiektów blob jest wystarczający dla Twoich potrzeb, workspaceblobstore parametr jest ustawiony jako domyślny magazyn danych i został już skonfigurowany do użycia. W przeciwnym razie potrzebujesz konta magazynu na platformie Azure z obsługiwanym typem magazynu.

    Tworzenie magazynów danych

    Magazyny danych można tworzyć na podstawie tych rozwiązań usługi Azure Storage. W przypadku nieobsługiwanych rozwiązań magazynu i zaoszczędzenia kosztów ruchu wychodzącego danych podczas eksperymentów uczenia maszynowego należy przenieść dane do obsługiwanego rozwiązania usługi Azure Storage. Dowiedz się więcej o magazynach danych.

    Magazyny danych można tworzyć przy użyciu dostępu opartego na poświadczeniach lub dostępu opartego na tożsamościach.

    Utwórz nowy magazyn danych w kilku krokach za pomocą programu Azure Machine Edukacja Studio.

    Ważne

    Jeśli twoje konto magazynu danych znajduje się w sieci wirtualnej, wymagane są dodatkowe kroki konfiguracji, aby upewnić się, że studio ma dostęp do danych. Zobacz Izolacja sieci i prywatność , aby upewnić się, że zostały zastosowane odpowiednie kroki konfiguracji.

    1. Zaloguj się do usługi Azure Machine Edukacja Studio.
    2. Wybierz pozycję Dane w okienku po lewej stronie w obszarze Zasoby.
    3. W górnej części wybierz pozycję Magazyny danych.
    4. Wybierz pozycję +Utwórz.
    5. Wypełnij formularz, aby utworzyć i zarejestrować nowy magazyn danych. Formularz jest inteligentnie aktualizowany na podstawie wybranych opcji typu magazynu i typu uwierzytelniania platformy Azure. Zobacz sekcję Dostęp do magazynu i uprawnienia, aby dowiedzieć się, gdzie znaleźć poświadczenia uwierzytelniania, które należy wypełnić w tym formularzu.

    W poniższym przykładzie pokazano, jak wygląda formularz podczas tworzenia magazynu danych obiektów blob platformy Azure:

    Form for a new datastore

    Tworzenie zasobów danych

    Po utworzeniu magazynu danych utwórz zestaw danych w celu interakcji z danymi. Zestawy danych pakują dane do leniwie ocenianego obiektu eksploatacyjnego na potrzeby zadań uczenia maszynowego, takich jak trenowanie. Dowiedz się więcej o zestawach danych.

    Istnieją dwa typy zestawów danych, FileDataset i TabularDataset. Zestawy plików tworzą odwołania do pojedynczych lub wielu plików lub publicznych adresów URL. Natomiast tabelaryczne zestawy danych reprezentują dane w formacie tabelarycznym. Zestawy TabularDatasets można tworzyć na podstawie plików csv, tsv, parquet, jsonl i wyników zapytań SQL.

    W poniższych krokach opisano sposób tworzenia zestawu danych w usłudze Azure Machine Edukacja Studio.

    Uwaga

    Zestawy danych utworzone za pośrednictwem usługi Azure Machine Edukacja Studio są automatycznie rejestrowane w obszarze roboczym.

    1. Przejdź do usługi Azure Machine Edukacja Studio

    2. W obszarze Zasoby w obszarze nawigacji po lewej stronie wybierz pozycję Dane. Na karcie Zasoby danych wybierz pozycję Utwórz This screenshot highlights Create in the Data assets tab.

    3. Nadaj zasobowi danych nazwę i opcjonalny opis. Następnie w obszarze Typ wybierz jeden z typów zestawów danych, plik lub tabelaryczny. This screenshot shows set the name, description, and type of the data asset.

    4. Masz kilka opcji źródła danych. Jeśli dane są już przechowywane na platformie Azure, wybierz pozycję "Z usługi Azure Storage". Jeśli chcesz przekazać dane z dysku lokalnego, wybierz pozycję "Z plików lokalnych". Jeśli dane są przechowywane w publicznej lokalizacji internetowej, wybierz pozycję "Z plików internetowych". Zasób danych można również utworzyć na podstawie bazy danych SQL lub z usługi Azure Open Datasets.

    5. W kroku wyboru pliku wybierz miejsce przechowywania danych na platformie Azure oraz pliki danych, których chcesz użyć.

      1. Włącz walidację pomijania, jeśli dane są w sieci wirtualnej. Dowiedz się więcej o izolacji i prywatności sieci wirtualnej.
    6. Wykonaj kroki, aby ustawić ustawienia analizowania danych i schemat zasobu danych. Ustawienia zostaną wstępnie wypełnione na podstawie typu pliku i można dodatkowo skonfigurować ustawienia przed utworzeniem zasobu danych.

    7. Po osiągnięciu kroku Przegląd kliknij pozycję Utwórz na ostatniej stronie

    Podgląd danych i profil

    Po utworzeniu zestawu danych sprawdź, czy możesz wyświetlić podgląd i profil w programie Studio, wykonując następujące czynności:

    1. Zaloguj się do usługi Azure Machine Edukacja Studio
    2. W obszarze Zasoby w obszarze nawigacji po lewej stronie wybierz pozycję Dane. Screenshot highlights Create in the Data assets tab.
    3. Wybierz nazwę zestawu danych, który chcesz wyświetlić.
    4. Wybierz kartę Eksploruj.
    5. Wybierz kartę Podgląd . Screenshot shows a preview of a dataset.
    6. Wybierz kartę Profil . Screenshot shows dataset column metadata in the Profile tab.

    Możesz uzyskać szeroką gamę statystyk podsumowania w zestawie danych, aby sprawdzić, czy zestaw danych jest gotowy do uczenia maszynowego. W przypadku kolumn nieliczbowych zawierają tylko podstawowe statystyki, takie jak minimalna, maksymalna i liczba błędów. W przypadku kolumn liczbowych można również przejrzeć ich momenty statystyczne i szacowane kwantyle.

    W szczególności profil danych zestawu danych usługi Azure Machine Edukacja obejmuje:

    Uwaga

    Puste wpisy są wyświetlane dla funkcji z nieistotnymi typami.

    Statystyka opis
    Funkcja Nazwa kolumny, która jest podsumowywana.
    Profile Wizualizacja w wierszu oparta na typie wywnioskowanym. Na przykład ciągi, wartości logiczne i daty będą miały liczby wartości, a liczby dziesiętne (liczbowe) mają przybliżone histogramy. Dzięki temu można szybko zrozumieć rozkład danych.
    Rozkład typów Liczba wartości w wierszu typów w kolumnie. Wartości null są własnym typem, więc ta wizualizacja jest przydatna do wykrywania nieparzystnych lub brakujących wartości.
    Typ Wywnioskowany typ kolumny. Możliwe wartości to: ciągi, wartości logiczne, daty i liczby dziesiętne.
    Minimum Minimalna wartość kolumny. Puste wpisy są wyświetlane dla funkcji, których typ nie ma nieodłącznej kolejności (na przykład wartości logiczne).
    Maksimum Maksymalna wartość kolumny.
    Count Łączna liczba brakujących wpisów i brakujących w kolumnie.
    Liczba niebrakujących Liczba wpisów w kolumnie, których nie brakuje. Puste ciągi i błędy są traktowane jako wartości, więc nie będą one przyczyniać się do "nie brakuje liczby".
    Kwantyle Przybliżone wartości w każdym kwantylu w celu zapewnienia poczucia rozkładu danych.
    Średnia Średnia arytmetyczna lub średnia kolumny.
    Odchylenie standardowe Miara ilości rozproszenia lub odmiany danych tej kolumny.
    Wariancja Miara tego, jak daleko rozłożone dane tej kolumny pochodzą od średniej wartości.
    Skośność Miara różnic w sposobie, w jaki dane tej kolumny pochodzą z rozkładu normalnego.
    Kurtoza Miara tego, jak mocno tailed dane tej kolumny są porównywane z rozkładem normalnym.

    Dostęp do magazynu i uprawnienia

    Aby zapewnić bezpieczne połączenie z usługą Azure Storage, usługa Azure Machine Edukacja wymaga uprawnień dostępu do odpowiedniego magazynu danych. Ten dostęp zależy od poświadczeń uwierzytelniania używanych do rejestrowania magazynu danych.

    Sieć wirtualna

    Jeśli twoje konto magazynu danych znajduje się w sieci wirtualnej, wymagane są dodatkowe kroki konfiguracji, aby upewnić się, że usługa Azure Machine Edukacja ma dostęp do danych. Zobacz Używanie usługi Azure Machine Edukacja Studio w sieci wirtualnej, aby upewnić się, że odpowiednie kroki konfiguracji są stosowane podczas tworzenia i rejestrowania magazynu danych.

    Sprawdzanie poprawności dostępu

    Ostrzeżenie

    Dostęp między dzierżawami do kont magazynu nie jest obsługiwany. Jeśli w twoim scenariuszu wymagany jest dostęp między dzierżawami, skontaktuj się z aliasem zespołu pomocy technicznej usługi Azure Machine Edukacja danych, amldatasupport@microsoft.com aby uzyskać pomoc dotyczącą niestandardowego rozwiązania kodu.

    W ramach początkowego procesu tworzenia i rejestracji magazynu danych usługa Azure Machine Edukacja automatycznie sprawdza, czy podstawowa usługa magazynu istnieje, a użytkownik podał jednostkę (nazwę użytkownika, jednostkę usługi lub token SAS) ma dostęp do określonego magazynu.

    Po utworzeniu magazynu danych ta walidacja jest wykonywana tylko dla metod wymagających dostępu do bazowego kontenera magazynu, a nie za każdym razem, gdy są pobierane obiekty magazynu danych. Na przykład walidacja ma miejsce, jeśli chcesz pobrać pliki z magazynu danych; ale jeśli chcesz zmienić domyślny magazyn danych, walidacja nie nastąpi.

    Aby uwierzytelnić dostęp do bazowej usługi magazynu, możesz podać klucz konta, tokeny sygnatur dostępu współdzielonego (SAS) lub jednostkę usługi zgodnie z typem magazynu danych, który chcesz utworzyć. Macierz typów magazynu zawiera listę obsługiwanych typów uwierzytelniania odpowiadających każdemu typowi magazynu danych.

    Informacje o kluczu konta, tokenie SYGNATURy dostępu współdzielonego i jednostce usługi można znaleźć w witrynie Azure Portal.

    • Jeśli planujesz uwierzytelnianie przy użyciu klucza konta lub tokenu SAS, wybierz pozycję Konta magazynu w okienku po lewej stronie i wybierz konto magazynu, które chcesz zarejestrować.

      • Strona Przegląd zawiera informacje, takie jak nazwa konta, kontener i nazwa udziału plików.
        1. W przypadku kluczy konta przejdź do pozycji Klucze dostępu w okienku Ustawienia.
        2. W przypadku tokenów SAS przejdź do pozycji Sygnatury dostępu współdzielonego w okienku Ustawienia.
    • Jeśli planujesz użyć jednostki usługi do uwierzytelniania, przejdź do Rejestracje aplikacji i wybierz aplikację, której chcesz użyć.

      • Odpowiednia strona Przegląd będzie zawierać wymagane informacje, takie jak identyfikator dzierżawy i identyfikator klienta.

    Ważne

    • Jeśli musisz zmienić klucze dostępu dla konta usługi Azure Storage (klucz konta lub token SAS), pamiętaj o zsynchronizowaniu nowych poświadczeń z obszarem roboczym i połączonymi z nim magazynami danych. Dowiedz się, jak zsynchronizować zaktualizowane poświadczenia.

    • Jeśli wyrejestrujesz i ponownie zarejestrujesz magazyn danych o tej samej nazwie i zakończysz się niepowodzeniem, usługa Azure Key Vault dla obszaru roboczego może nie mieć włączonego usuwania nietrwałego. Domyślnie usuwanie nietrwałe jest włączone dla wystąpienia magazynu kluczy utworzonego przez obszar roboczy, ale może nie być włączone, jeśli używasz istniejącego magazynu kluczy lub masz obszar roboczy utworzony przed październikiem 2020 r. Aby uzyskać informacje na temat włączania usuwania nietrwałego, zobacz Włączanie usuwania nietrwałego dla istniejącego magazynu kluczy.

    Uprawnienia

    W przypadku kontenera obiektów blob platformy Azure i magazynu usługi Azure Data Lake Gen 2 upewnij się, że poświadczenia uwierzytelniania mają dostęp do czytnika danych obiektu blob usługi Storage. Dowiedz się więcej o czytniku danych obiektu blob usługi Storage. Token SAS konta domyślnie nie ma uprawnień.

    • W przypadku dostępu do odczytu danych poświadczenia uwierzytelniania muszą mieć co najmniej uprawnienia listy i odczytu dla kontenerów i obiektów.

    • W przypadku dostępu do zapisu danych wymagane są również uprawnienia do zapisu i dodawania.

    Szkolenie przy użyciu zestawów danych

    Użyj zestawów danych w eksperymentach uczenia maszynowego na potrzeby trenowania modeli uczenia maszynowego. Dowiedz się więcej na temat trenowania za pomocą zestawów danych.

    Następne kroki