Udostępnij za pośrednictwem


Importowanie z internetowego adresu URL za pośrednictwem protokołu HTTP

Ważne

Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.

Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).

Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.

W tym artykule opisano sposób używania modułu Import danych w programie Machine Learning Studio (wersja klasyczna) do odczytywania danych z publicznej strony internetowej do użycia w eksperymencie uczenia maszynowego.

Uwaga

Dotyczy: Machine Learning Studio (wersja klasyczna)

Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.

Następujące ograniczenia dotyczą danych publikowanych na stronie internetowej:

  • Dane muszą być w jednym z obsługiwanych formatów: CSV, TSV, ARFF lub SvmLight. Inne dane będą powodować błędy.
  • Uwierzytelnianie nie jest wymagane ani obsługiwane. Dane muszą być publicznie dostępne.

Jak importować dane za pośrednictwem protokołu HTTP

Istnieją dwa sposoby uzyskania danych: użyj kreatora do skonfigurowania źródła danych lub skonfiguruj je ręcznie.

Korzystanie z kreatora importu danych

  1. Dodaj moduł Import Data (Importuj dane) do eksperymentu. Moduł można znaleźć w programie Studio (klasycznym) w kategorii Dane wejściowe i Wyjściowe .

  2. Kliknij pozycję Uruchom Kreatora importu danych i wybierz pozycję Internetowy adres URL za pośrednictwem protokołu HTTP.

  3. Wklej adres URL i wybierz format danych.

  4. Po zakończeniu konfiguracji kliknij prawym przyciskiem myszy moduł, a następnie wybierz pozycję Uruchom wybrane.

Aby edytować istniejące połączenie danych, uruchom kreatora ponownie. Kreator ładuje wszystkie szczegóły poprzedniej konfiguracji, aby nie trzeba było ponownie rozpoczynać pracy od podstaw

Ręczne ustawianie właściwości w module Importowanie danych

W poniższych krokach opisano sposób ręcznego konfigurowania źródła importu.

  1. Dodaj moduł Import Data (Importuj dane) do eksperymentu. Moduł można znaleźć w programie Studio (klasycznym) w kategorii Dane wejściowe i Wyjściowe .

  2. W polu Źródło danych wybierz pozycję Internetowy adres URL za pośrednictwem protokołu HTTP.

  3. W polu Adres URL wpisz lub wklej pełny adres URL strony zawierającej dane, które chcesz załadować.

    Adres URL powinien zawierać adres URL witryny i pełną ścieżkę wraz z nazwą pliku i rozszerzeniem do strony zawierającej dane do załadowania.

    Na przykład następująca strona zawiera zestaw danych irysów z repozytorium uczenia maszynowego Uniwersytetu Kalifornii w Irvine:

    https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data

  4. W przypadku opcji Format danych wybierz z listy jeden z obsługiwanych formatów danych.

    Zalecamy, aby zawsze wcześniej sprawdzać dane w celu określenia formatu. Strona UC Irvine używa formatu CSV. Inne obsługiwane formaty danych to TSV, ARFF i SvmLight.

  5. Jeśli dane są w formacie CSV lub TSV, użyj opcji Plik ma wiersz nagłówka, aby wskazać, czy dane źródłowe zawierają wiersz nagłówka. Wiersz nagłówka służy do przypisywania nazw kolumn.

  6. Wybierz opcje Użyj buforowanych wyników, jeśli nie spodziewasz się, że dane znacznie się zmienią lub jeśli chcesz uniknąć ponownego ładowania danych przy każdym uruchomieniu eksperymentu.

    Po wybraniu tej opcji eksperyment ładuje dane przy pierwszym uruchomieniu modułu, a następnie używa buforowanej wersji zestawu danych.

    Jeśli chcesz ponownie załadować zestaw danych do każdej iteracji zestawu danych eksperymentu, usuń zaznaczenie opcji Użyj buforowanych wyników . Wyniki są również ponownie ładowane w przypadku zmiany parametrów importu danych.

  7. Uruchom eksperyment.

Wyniki

Po zakończeniu kliknij wyjściowy zestaw danych i wybierz pozycję Visualize (Wizualizacja ), aby sprawdzić, czy dane zostały zaimportowane pomyślnie.

Przykłady

Zobacz następujące przykłady w Azure AI Gallery uczenia maszynowego, które pobrać dane z publicznych witryn internetowych:

Uwagi techniczne

Ta sekcja zawiera szczegóły implementacji, porady i odpowiedzi na często zadawane pytania.

Często zadawane pytania

Czy mogę filtrować dane, gdy są odczytywane ze źródła

Nie. Ta opcja nie jest obsługiwana w przypadku tego źródła danych.

Po odczytaniu danych do programu Machine Learning Studio (wersja klasyczna) możesz podzielić zestaw danych, użyć próbkowania itd., aby uzyskać tylko te wiersze, których potrzebujesz:

  • Napisz prosty kod R w skrypcie execute R, aby pobrać część danych według wierszy lub kolumn.

  • Użyj modułu Split Data (Podział danych) z wyrażeniem względnym lub wyrażeniem regularnym, aby odizolować dane.

  • Jeśli załadowano więcej danych, niż jest to potrzebne, zastąp buforowany zestaw danych, odczytując nowy zestaw danych i zapisując go pod taką samą nazwą.

Jak uniknąć niepotrzebnego ponownego ładowania tych samych danych

Jeśli źródło danych zmieni się, możesz odświeżyć zestaw danych i dodać nowe dane, uruchamiając ponownie pozycję Importuj dane.

Jeśli nie chcesz ponownie odczytywać ze źródła przy każdym uruchomieniu eksperymentu, wybierz opcję Użyj buforowanych wyników na wartość TRUE. Gdy ta opcja jest ustawiona na wartość TRUE, moduł sprawdza, czy eksperyment został wcześniej uruchomiony przy użyciu tego samego źródła i tych samych opcji danych wejściowych. Jeśli zostanie znaleziony poprzedni przebieg, dane w pamięci podręcznej będą używane zamiast ponownego ładowania danych ze źródła.

Dlaczego na końcu mojego zestawu danych został dodany dodatkowy wiersz

Jeśli moduł Import danych napotka wiersz danych, po którym następuje pusty wiersz lub końcowy znak nowego wiersza, na końcu tabeli zostanie dodany dodatkowy wiersz. Ten nowy wiersz zawiera brakujące wartości.

Przyczyną interpretowania nowego wiersza na końcu jako nowego wiersza jest to, że import danych nie może określić różnicy między rzeczywistym pustym wierszem a pustym wierszem utworzonym przez użytkownika naciskającego klawisz ENTER na końcu pliku.

Ponieważ niektóre algorytmy uczenia maszynowego obsługują brakujące dane i w związku z tym traktują ten wiersz jako przypadek (co z kolei może mieć wpływ na wyniki), należy użyć polecenia Clean Missing Data (Czyszczenie brakujących danych) w celu sprawdzenia brakujących wartości (szczególnie wierszy, które są całkowicie puste) i usunąć je w razie potrzeby.

Przed sprawdzeniem pustych wierszy warto również podzielić zestaw danych przy użyciu funkcji Split Data (Podział danych). Oddziela to wiersze z częściową brakującą wartością, które reprezentują rzeczywiste brakujące wartości w danych źródłowych. Użyj opcji Wybierz N pierwszych wierszy , aby odczytać pierwszą część zestawu danych do oddzielnego kontenera od ostatniego wiersza.

Dlaczego niektóre znaki w pliku źródłowym nie są prawidłowo wyświetlane

Machine Learning obsługuje kodowanie UTF-8. Jeśli plik źródłowy używa innego typu kodowania, znaki mogą nie zostać zaimportowane poprawnie.

Parametry modułu

Nazwa Zakres Typ Domyślny Opis
Źródło danych Lista Źródło danych lub ujścia Azure Blob Storage Źródłem danych może być protokół HTTP, FTP, anonimowy protokół HTTPS lub FTPS, plik w usłudze Azure BLOB Storage, tabela platformy Azure, Azure SQL Database, lokalna baza danych SQL Server, tabela Programu Hive lub punkt końcowy OData.
Adres URL dowolny Ciąg brak Adres URL dla protokołu HTTP
Format danych CSV

TSV

ARFF

SvmLight
Format danych CSV Typ pliku źródła HTTP
Wolumin CSV lub TSV ma wiersz nagłówka PRAWDA/FAŁSZ Boolean fałsz Wskazuje, czy plik CSV lub TSV ma wiersz nagłówka
Używanie buforowanych wyników PRAWDA/FAŁSZ Wartość logiczna FALSE Moduł jest wykonywany tylko wtedy, gdy nie istnieje prawidłowa pamięć podręczna. W przeciwnym razie używane są dane buforowane z poprzedniego wykonania.

Dane wyjściowe

Nazwa Typ Opis
Zestaw danych wyników Tabela danych Zestaw danych z pobranymi danymi

Wyjątki

Wyjątek Opis
Błąd 0027 Wyjątek występuje, gdy dwa obiekty muszą mieć ten sam rozmiar, ale nie.
Błąd 0003 Wyjątek występuje, jeśli co najmniej jeden element wejściowy ma wartość null lub jest pusty.
Błąd 0029 Wyjątek występuje, gdy zostanie przekazany nieprawidłowy identyfikator URI.
Błąd 0030 występuje wyjątek w programie , gdy nie jest możliwe pobranie pliku.
Błąd 0002 Wyjątek występuje, jeśli co najmniej jeden parametr nie może być analizowany lub konwertowany z określonego typu na typ wymagany przez metodę docelową.
Błąd 0048 Wyjątek występuje, gdy nie jest możliwe otwarcie pliku.
Błąd 0046 Wyjątek występuje, gdy nie jest możliwe utworzenie katalogu w określonej ścieżce.
Błąd 0049 Wyjątek występuje, gdy nie jest możliwe analizowanie pliku.

Aby uzyskać listę błędów specyficznych dla modułów programu Studio (wersja klasyczna), zobacz Machine Learning Kody błędów.

Aby uzyskać listę wyjątków interfejsu API, zobacz Machine Learning API REST Error Codes (Kody błędów interfejsu API REST).

Zobacz też

Importowanie danych
Eksportowanie danych
Importowanie z zapytania Hive
Importowanie z usługi Azure SQL Database
Importowanie z usługi Azure Table
Importowanie z Azure Blob Storage
Importowanie od dostawców źródła danych
Importowanie z lokalnej bazy SQL Server Database