Udostępnij za pośrednictwem


Importowanie danych szkoleniowych do usługi Machine Learning Studio (klasycznej) z różnych źródeł danych

DOTYCZY: Dotyczy.Machine Learning Studio (wersja klasyczna) Nie dotyczy.Azure Machine Learning

Ważne

Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.

Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).

Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.

Aby użyć własnych danych w usłudze Machine Learning Studio (wersja klasyczna) do tworzenia i trenowania rozwiązania do analizy predykcyjnej, możesz użyć danych z:

  • Plik lokalny — ładowanie danych lokalnych z wyprzedzeniem z dysku twardego w celu utworzenia modułu zestawu danych w obszarze roboczym
  • Źródła danych online — użyj modułu Importuj dane , aby uzyskać dostęp do danych z jednego z kilku źródeł online podczas wykonywania eksperymentu
  • Eksperyment usługi Machine Learning Studio (klasyczny) — używanie danych zapisanych jako zestaw danych w usłudze Machine Learning Studio (wersja klasyczna)
  • Baza danych programu SQL Server — używanie danych z bazy danych programu SQL Server bez konieczności ręcznego kopiowania danych

Uwaga

W usłudze Machine Learning Studio (klasycznym) dostępnych jest wiele przykładowych zestawów danych, których można użyć do trenowania danych. Aby uzyskać informacje na ten temat, zobacz Używanie przykładowych zestawów danych w usłudze Machine Learning Studio (wersja klasyczna).

Przygotowywanie danych

Usługa Machine Learning Studio (klasyczna) jest przeznaczona do pracy z danymi prostokątnymi lub tabelarycznymi, takimi jak dane tekstowe rozdzielane lub ustrukturyzowane z bazy danych, choć w niektórych okolicznościach mogą być używane dane nie prostokątne.

Najlepiej jest, jeśli dane są stosunkowo czyste przed zaimportowanie ich do programu Studio (wersja klasyczna). Na przykład należy dbać o problemy, takie jak ciągi bez cudzysłów.

Istnieją jednak moduły dostępne w programie Studio (klasycznym), które umożliwiają manipulowanie danymi w eksperymencie po zaimportowaniu danych. W zależności od używanych algorytmów uczenia maszynowego może być konieczne podjęcie decyzji, w jaki sposób będziesz obsługiwać problemy strukturalne danych, takie jak brakujące wartości i rozrzednione dane, a także istnieją moduły, które mogą z tym pomóc. Zapoznaj się z sekcją Przekształcanie danych palety modułów dla modułów, które wykonują te funkcje.

W dowolnym momencie eksperymentu możesz wyświetlić lub pobrać dane utworzone przez moduł, klikając port wyjściowy. W zależności od modułu mogą istnieć różne opcje pobierania lub można zwizualizować dane w przeglądarce internetowej w programie Studio (wersja klasyczna).

Obsługiwane formaty danych i typy danych

Możesz zaimportować do eksperymentu wiele typów danych, w zależności od tego, jakiego mechanizmu używasz do importowania danych i skąd pochodzą:

  • Zwykły tekst (.txt)
  • Wartości rozdzielone przecinkami (CSV) z nagłówkiem (.csv) lub bez (.nh.csv)
  • Wartości rozdzielane tabulatorami (TSV) z nagłówkiem (tsv) lub bez (.nh.tsv)
  • Plik programu Excel
  • Tabela platformy Azure
  • Tabela Hive
  • Tabela bazy danych SQL
  • Wartości OData
  • SvMLight data (svmlight) (zobacz definicję SVMLight, aby uzyskać informacje o formacie)
  • Dane formatu pliku relacji atrybutów (ARFF) (arff) (zobacz definicję ARFF, aby uzyskać informacje o formacie)
  • Plik zip (.zip)
  • Obiekt języka R lub plik obszaru roboczego (. RData)

W przypadku importowania danych w formacie takim jak ARFF, który zawiera metadane, program Studio (wersja klasyczna) używa tych metadanych do zdefiniowania nagłówka i typu danych każdej kolumny.

Jeśli importujesz dane, takie jak TSV lub FORMAT CSV, które nie zawierają tych metadanych, program Studio (wersja klasyczna) wywnioskuje typ danych dla każdej kolumny, próbkując dane. Jeśli dane nie mają również nagłówków kolumn, program Studio (wersja klasyczna) udostępnia nazwy domyślne.

Możesz jawnie określić lub zmienić nagłówki i typy danych dla kolumn przy użyciu modułu Edytowanie metadanych .

Następujące typy danych są rozpoznawane przez program Studio (wersja klasyczna):

  • String
  • Liczba całkowita
  • Liczba rzeczywista
  • Wartość logiczna
  • DateTime
  • przedział_czasu

Program Studio używa wewnętrznego typu danych nazywanego tabelą danych do przekazywania danych między modułami. Dane można jawnie przekonwertować na format tabeli danych przy użyciu modułu Konwertuj na zestaw danych .

Każdy moduł, który akceptuje formaty inne niż tabela danych, przekonwertuje dane na tabelę danych w trybie dyskretnym przed przekazaniem ich do następnego modułu.

W razie potrzeby można przekonwertować format tabeli danych z powrotem na format CSV, TSV, ARFF lub SVMLight przy użyciu innych modułów konwersji. Zapoznaj się z sekcją Konwersje formatu danych w palecie modułów dla modułów wykonujących te funkcje.

Pojemności danych

Moduły w usłudze Machine Learning Studio (wersja klasyczna) obsługują zestawy danych o rozmiarze do 10 GB gęstych danych liczbowych dla typowych przypadków użycia. Jeśli moduł przyjmuje więcej niż jedną operację wprowadzania danych wejściowych, wówczas 10 GB to łączny rozmiar wszystkich danych wejściowych. Większe zestawy danych można próbkować przy użyciu zapytań z programu Hive lub usługi Azure SQL Database lub możesz użyć metody Learning by Counts wstępnie przetwarzając przed zaimportowaniem danych.

Podczas normalizacji funkcji następujące typy danych mogą ulegać rozszerzaniu do większych zestawów danych. Takie dane muszą być mniejsze niż 10 GB:

  • Rozrzedzone
  • Podzielone na kategorie
  • Ciągi
  • Dane binarne

W przypadku następujących modułów obowiązuje ograniczenie do zestawów danych mniejszych niż 10 GB:

  • Moduły polecania
  • Moduł Synthetic Minority Oversampling Technique (SMOTE)
  • Moduły skryptów: R, Python, SQL
  • Moduły, w których rozmiar danych wyjściowych może być większy niż rozmiar danych wejściowych, na przykład Przyłączenie lub Tworzenie skrótu funkcji
  • Krzyżowa weryfikacja, Hiperparametry modelu strojenia, Regresja porządkowa oraz Multiklasa Jedna kontra wszystkie, gdy liczba iteracji jest bardzo duża

W przypadku zestawów danych, które są większe niż kilka GB, przekaż dane do usługi Azure Storage lub Azure SQL Database albo użyj usługi Azure HDInsight, zamiast przekazywać bezpośrednio z pliku lokalnego.

Informacje o danych obrazów można znaleźć w dokumentacji modułu Importuj obrazy .

Importowanie z pliku lokalnego

Możesz przekazać plik danych z dysku twardego do użycia jako dane szkoleniowe w programie Studio (wersja klasyczna). Podczas importowania pliku danych utworzysz moduł zestawu danych gotowy do użycia w eksperymentach w obszarze roboczym.

Aby zaimportować dane z lokalnego dysku twardego, wykonaj następujące czynności:

  1. Kliknij pozycję +NOWY w dolnej części okna Studio (wersja klasyczna).
  2. Wybierz pozycję ZESTAW DANYCH i Z PLIKU LOKALNEGO.
  3. W oknie dialogowym Przekazywanie nowego zestawu danych przejdź do pliku, który chcesz przekazać.
  4. Wprowadź nazwę, zidentyfikuj typ danych i opcjonalnie wprowadź opis. Zalecany jest opis — umożliwia zarejestrowanie wszelkich cech dotyczących danych, które mają być zapamiętane podczas korzystania z danych w przyszłości.
  5. Pole wyboru To jest nowa wersja istniejącego zestawu danych umożliwia zaktualizowanie istniejącego zestawu danych przy użyciu nowych danych. Aby to zrobić, kliknij to pole wyboru, a następnie wprowadź nazwę istniejącego zestawu danych.

Przekazywanie nowego zestawu danych

Czas przekazywania zależy od rozmiaru danych i szybkości połączenia z usługą. Jeśli wiesz, że plik zajmie dużo czasu, możesz wykonać inne czynności w programie Studio (klasycznym) podczas oczekiwania. Jednak zamknięcie przeglądarki przed zakończeniem przekazywania danych powoduje niepowodzenie przekazywania.

Po przekazaniu danych są przechowywane w module zestawu danych i są dostępne dla dowolnego eksperymentu w obszarze roboczym.

Podczas edytowania eksperymentu możesz znaleźć zestawy danych przekazane na liście Moje zestawy danych na liście Zapisane zestawy danych na palecie modułów. Możesz przeciągać i upuszczać zestaw danych na kanwę eksperymentu, gdy chcesz użyć zestawu danych do dalszej analizy i uczenia maszynowego.

Importowanie ze źródeł danych online

Korzystając z modułu Importowanie danych , eksperyment może importować dane z różnych źródeł danych online podczas wykonywania eksperymentu.

Uwaga

Ten artykuł zawiera ogólne informacje na temat modułu Import Data (Importowanie danych ). Aby uzyskać bardziej szczegółowe informacje na temat typów danych, do których można uzyskać dostęp, formaty, parametry i odpowiedzi na typowe pytania, zobacz temat referencyjny modułu dla modułu Importowanie danych .

Korzystając z modułu Importuj dane , możesz uzyskać dostęp do danych z jednego z kilku źródeł danych online, gdy eksperyment jest uruchomiony:

  • Internetowy adres URL korzystający z protokołu HTTP
  • Hadoop przy użyciu technologii HiveQL
  • Azure Blob Storage
  • Tabela platformy Azure
  • Usługa Azure SQL Database. SQL Managed Instance lub SQL Server
  • Dostawca źródła danych, obecnie OData
  • Azure Cosmos DB

Ponieważ dostęp do tych danych treningowych jest uzyskiwany podczas działania eksperymentu, jest dostępny tylko w tym eksperymencie. Dla porównania dane przechowywane w module zestawu danych są dostępne dla dowolnego eksperymentu w obszarze roboczym.

Aby uzyskać dostęp do źródeł danych online w eksperymencie studio (klasycznym), dodaj moduł Import Data (Importuj dane) do eksperymentu. Następnie wybierz pozycję Uruchom Kreatora importu danych w obszarze Właściwości , aby uzyskać instrukcje krok po kroku, aby wybrać i skonfigurować źródło danych. Alternatywnie możesz ręcznie wybrać źródło danych w obszarze Właściwości i podać parametry wymagane do uzyskania dostępu do danych.

Obsługiwane źródła danych online są wyszczególnione w poniższej tabeli. Ta tabela zawiera również podsumowanie obsługiwanych formatów plików i parametrów używanych do uzyskiwania dostępu do danych.

Ważne

Obecnie moduły Importuj dane i Eksportuj dane mogą odczytywać i zapisywać dane tylko z usługi Azure Storage utworzonej przy użyciu klasycznego modelu wdrażania. Innymi słowy, nowy typ konta usługi Azure Blob Storage, który oferuje warstwę dostępu do magazynu gorącą lub warstwę dostępu do magazynu chłodnego, nie jest jeszcze obsługiwany.

Ogólnie rzecz biorąc, wszystkie konta usługi Azure Storage, które mogły zostać utworzone przed udostępnieniem tej opcji usługi, nie powinny mieć wpływu. Jeśli musisz utworzyć nowe konto, wybierz pozycję Klasyczne dla modelu wdrażania lub użyj usługi Resource Manager, a następnie wybierz pozycję Ogólnego przeznaczenia , a nie usługi Blob Storage w polu Rodzaj konta.

Aby uzyskać więcej informacji, zobacz Azure Blob Storage: Warstwy magazynowania Gorąca i Chłodna.

Obsługiwane źródła danych online

Moduł Importowanie danych usługi Machine Learning Studio (wersja klasyczna) obsługuje następujące źródła danych:

Źródło danych opis Parametry
Internetowy adres URL za pośrednictwem protokołu HTTP Odczytuje dane w wartościach rozdzielanych przecinkami (CSV), wartościach rozdzielanych tabulatorami (TSV), formacie pliku relacji atrybutów (ARFF) i formatach wektorów nośnych (SVM-light) z dowolnego internetowego adresu URL korzystającego z protokołu HTTP Adres URL: określa pełną nazwę pliku, w tym adres URL witryny i nazwę pliku, z dowolnym rozszerzeniem.

Format danych: określa jeden z obsługiwanych formatów danych: CSV, TSV, ARFF lub SVM-light. Jeśli dane mają wiersz nagłówka, służy do przypisywania nazw kolumn.
Hadoop/HDFS Odczytuje dane z magazynu rozproszonego w usłudze Hadoop. Należy określić żądane dane przy użyciu języka zapytań HiveQL, przypominającego język zapytań SQL. HiveQL może również służyć do agregowania danych i przeprowadzania filtrowania danych przed dodaniem danych do programu Studio (wersja klasyczna). Zapytanie bazy danych Programu Hive: określa zapytanie Hive używane do generowania danych.

Identyfikator URI serwera HCatalog: określ nazwę klastra przy użyciu formatu <nazwy> klastra.azurehdinsight.net.

Nazwa konta użytkownika usługi Hadoop: określa nazwę konta użytkownika usługi Hadoop używaną do aprowizacji klastra.

Hasło konta użytkownika usługi Hadoop: określa poświadczenia używane podczas aprowizacji klastra. Aby uzyskać więcej informacji, zobacz Tworzenie klastrów Hadoop w usłudze HDInsight.

Lokalizacja danych wyjściowych: określa, czy dane są przechowywane w rozproszonym systemie plików Hadoop (HDFS) czy na platformie Azure.
    Jeśli dane wyjściowe są przechowywane w systemie plików HDFS, określ identyfikator URI serwera HDFS. (Pamiętaj, aby użyć nazwy klastra usługi HDInsight bez prefiksu HTTPS://).

    Jeśli dane wyjściowe są przechowywane na platformie Azure, musisz określić nazwę konta usługi Azure Storage, klucz dostępu do usługi Storage i nazwę kontenera usługi Storage.
Baza danych SQL Odczytuje dane przechowywane w usłudze Azure SQL Database, usłudze SQL Managed Instance lub w bazie danych programu SQL Server uruchomionej na maszynie wirtualnej platformy Azure. Nazwa serwera bazy danych: określa nazwę serwera, na którym jest uruchomiona baza danych.
    W przypadku usługi Azure SQL Database wprowadź wygenerowaną nazwę serwera. Zazwyczaj ma on postać <generated_identifier.database.windows.net>.

    W przypadku serwera SQL hostowanego na maszynie wirtualnej platformy Azure wprowadź wartość tcp:<Nazwa DNS> maszyny wirtualnej, 1433

Nazwa bazy danych : określa nazwę bazy danych na serwerze.

Nazwa konta użytkownika serwera: określa nazwę użytkownika dla konta, które ma uprawnienia dostępu do bazy danych.

Hasło konta użytkownika serwera: określa hasło dla konta użytkownika.

Zapytanie bazy danych: wprowadź instrukcję SQL, która opisuje dane, które chcesz odczytać.
Lokalna baza danych SQL Odczytuje dane przechowywane w bazie danych SQL. Brama danych: określa nazwę bramy Zarządzanie danymi zainstalowanej na komputerze, na którym może uzyskać dostęp do bazy danych programu SQL Server. Aby uzyskać informacje na temat konfigurowania bramy, zobacz Wykonywanie zaawansowanej analizy przy użyciu usługi Machine Learning Studio (wersja klasyczna) przy użyciu danych z serwera SQL.

Nazwa serwera bazy danych: określa nazwę serwera, na którym jest uruchomiona baza danych.

Nazwa bazy danych : określa nazwę bazy danych na serwerze.

Nazwa konta użytkownika serwera: określa nazwę użytkownika dla konta, które ma uprawnienia dostępu do bazy danych.

Nazwa użytkownika i hasło: kliknij pozycję Wprowadź wartości , aby wprowadzić poświadczenia bazy danych. W zależności od konfiguracji programu SQL Server można użyć zintegrowanego uwierzytelniania systemu Windows lub uwierzytelniania programu SQL Server.

Zapytanie bazy danych: wprowadź instrukcję SQL, która opisuje dane, które chcesz odczytać.
Tabela platformy Azure Odczytuje dane z usługi Table Service w usłudze Azure Storage.

Jeśli często odczytujesz duże ilości danych, użyj usługi Azure Table Service. Zapewnia elastyczne, nierelacyjne (NoSQL), wysoce skalowalne, niedrogie i wysoce dostępne rozwiązanie magazynu.
Opcje w importowanych danych zmieniają się w zależności od tego, czy uzyskujesz dostęp do informacji publicznych, czy prywatnego konta magazynu, które wymaga poświadczeń logowania. Jest to określane przez typ uwierzytelniania, który może mieć wartość "PublicOrSAS" lub "Account", z których każdy ma własny zestaw parametrów.

Identyfikator URI publicznego lub sygnatury dostępu współdzielonego (SAS): Parametry to:

    Identyfikator URI tabeli: określa publiczny lub sas URL tabeli.

    Określa wiersze do skanowania pod kątem nazw właściwości: wartości to TopN do skanowania określonej liczby wierszy lub ScanAll , aby pobrać wszystkie wiersze w tabeli.

    Jeśli dane są jednorodne i przewidywalne, zaleca się wybranie pozycji TopN i wprowadzenie liczby dla N. W przypadku dużych tabel może to spowodować szybsze odczytywanie.

    Jeśli dane mają strukturę z zestawami właściwości, które różnią się w zależności od głębokości i położenia tabeli, wybierz opcję ScanAll , aby skanować wszystkie wiersze. Zapewnia to integralność wynikowej właściwości i konwersji metadanych.

Prywatne konto magazynu: parametry to:

    Nazwa konta: określa nazwę konta, które zawiera tabelę do odczytania.

    Klucz konta: określa klucz magazynu skojarzony z kontem.

    Nazwa tabeli : określa nazwę tabeli zawierającej dane do odczytania.

    Wiersze do skanowania pod kątem nazw właściwości: wartości to TopN w celu przeskanowania określonej liczby wierszy lub ScanAll w celu pobrania wszystkich wierszy w tabeli.

    Jeśli dane są jednorodne i przewidywalne, zalecamy wybranie pozycji TopN i wprowadzenie liczby dla N. W przypadku dużych tabel może to spowodować szybsze odczytywanie.

    Jeśli dane mają strukturę z zestawami właściwości, które różnią się w zależności od głębokości i położenia tabeli, wybierz opcję ScanAll , aby skanować wszystkie wiersze. Zapewnia to integralność wynikowej właściwości i konwersji metadanych.

Azure Blob Storage Odczytuje dane przechowywane w usłudze Blob Service w usłudze Azure Storage, w tym obrazy, tekst bez struktury lub dane binarne.

Za pomocą usługi Blob można publicznie uwidaczniać dane lub prywatnie przechowywać dane aplikacji. Dostęp do danych można uzyskać z dowolnego miejsca przy użyciu połączeń HTTP lub HTTPS.
Opcje w module Importowanie danych zmieniają się w zależności od tego, czy uzyskujesz dostęp do informacji publicznych, czy prywatnego konta magazynu, które wymaga poświadczeń logowania. Jest to określane przez typ uwierzytelniania, który może mieć wartość "PublicOrSAS" lub "Account".

Identyfikator URI publicznego lub sygnatury dostępu współdzielonego (SAS): Parametry to:

    Identyfikator URI: określa publiczny lub sas url dla obiektu blob magazynu.

    Format pliku: określa format danych w usłudze Blob Service. Obsługiwane formaty to CSV, TSV i ARFF.

Prywatne konto magazynu: parametry to:

    Nazwa konta: określa nazwę konta, które zawiera obiekt blob, który chcesz odczytać.

    Klucz konta: określa klucz magazynu skojarzony z kontem.

    Ścieżka do kontenera, katalogu lub obiektu blob: określa nazwę obiektu blob zawierającego dane do odczytu.

    Format pliku obiektu blob: określa format danych w usłudze blob. Obsługiwane formaty danych to CSV, TSV, ARFF, CSV z określonym kodowaniem i programem Excel.

      Jeśli format to CSV lub TSV, pamiętaj, aby wskazać, czy plik zawiera wiersz nagłówka.

      Możesz użyć opcji programu Excel, aby odczytywać dane ze skoroszytów programu Excel. W opcji Format danych programu Excel wskaż, czy dane są w zakresie arkusza programu Excel, czy w tabeli programu Excel. W opcji Arkusz programu Excel lub tabela osadzona określ nazwę arkusza lub tabeli, z której chcesz odczytać.

Dostawca źródła danych Odczytuje dane od obsługiwanego dostawcy kanału informacyjnego. Obecnie obsługiwany jest tylko format Open Data Protocol (OData). Typ zawartości danych: określa format OData.

Źródłowy adres URL: określa pełny adres URL źródła danych.
Na przykład następujący adres URL odczytuje się z przykładowej bazy danych Northwind: https://services.odata.org/northwind/northwind.svc/

Importowanie z innego eksperymentu

Będą czasy, kiedy zechcesz wykonać wynik pośredni z jednego eksperymentu i użyć go w ramach innego eksperymentu. W tym celu zapisz moduł jako zestaw danych:

  1. Kliknij dane wyjściowe modułu, który chcesz zapisać jako zestaw danych.
  2. Kliknij pozycję Zapisz jako zestaw danych.
  3. Po wyświetleniu monitu wprowadź nazwę i opis, który umożliwi łatwe zidentyfikowanie zestawu danych.
  4. Kliknij znacznik wyboru OK.

Po zakończeniu zapisywania zestaw danych będzie dostępny do użycia w dowolnym eksperymencie w obszarze roboczym. Możesz go znaleźć na liście Zapisane zestawy danych na palecie modułów .

Następne kroki

Wdrażanie usług sieci Web Machine Learning Studio (klasycznych) korzystających z modułów Importowanie danych i Eksportowanie danych