Importieren aus Web-URL über HTTP

Artikel
05/06/2019

Wichtig

Der Support für Machine Learning Studio (klassisch) endet am 31. August 2024. Es wird empfohlen, bis zu diesem Datum auf Azure Machine Learning umzustellen.

Ab dem 1. Dezember 2021 können Sie keine neuen Ressourcen in Machine Learning Studio (klassisch) mehr erstellen. Bis zum 31. August 2024 können Sie die vorhandenen Ressourcen in Machine Learning Studio (klassisch) weiterhin verwenden.

Siehe Migrieren zu Azure Machine Learning
Weitere Informationen zu Azure Machine Learning.

Die Dokumentation zu ML Studio (klassisch) wird nicht mehr fortgeführt und kann künftig nicht mehr aktualisiert werden.

In diesem Artikel wird beschrieben, wie Sie das Import Data-Modul in Machine Learning Studio (klassisch) verwenden, um Daten von einer öffentlichen Webseite für die Verwendung in einem Machine Learning-Experiment zu lesen.

Hinweis

Gilt nur für: Machine Learning Studio (klassisch)

Ähnliche Drag & Drop-Module sind im Azure Machine Learning-Designer verfügbar.

Die folgenden Einschränkungen gelten für Daten, die auf einer Webseite veröffentlicht sind:

Die Daten müssen in einem der unterstützten Formate vorliegen: CSV, TSV, ARFF oder SvmLight. Andere Daten verursachen Fehler.
Eine Authentifizierung ist nicht erforderlich und wird auch nicht unterstützt. Daten müssen öffentlich verfügbar sein.

Importieren von Daten über HTTP

Zum Abrufen von Daten gibt es zwei Möglichkeiten: die Verwendung des Assistenten zum Einrichten der Datenquelle oder die manuelle Konfiguration der Datenquelle.

Verwenden des Assistenten zum Importieren von Daten

Fügen Sie das Modul Import Data Ihrem Experiment hinzu. Sie finden das Modul in Studio (klassisch) in der Kategorie Dateneingabe und -ausgabe .
Klicken Sie auf Launch Import Data Wizard (Datenimport-Assistenten starten), und wählen Sie „Web URL via HTTP“ aus.
Fügen Sie die URL ein, und wählen Sie ein Datenformat aus.
Klicken Sie nach Abschluss der Konfiguration mit der rechten Maustaste auf das Modul, und wählen Sie Ausgewählte ausführen aus.

Starten Sie den Assistenten erneut, um eine vorhandene Datenverbindung zu bearbeiten. Der Assistent lädt alle vorherigen Konfigurationsdetails, damit Sie nicht ganz von vorne beginnen müssen.

Manuelles Festlegen der Eigenschaften im Modul „Daten importieren“

Die folgenden Schritte beschreiben, wie Sie die Importquelle manuell konfigurieren.

Fügen Sie das Modul Import Data Ihrem Experiment hinzu. Sie finden das Modul in Studio (klassisch) in der Kategorie Dateneingabe und -ausgabe .
Wählen Sie als Datenquelle die Option Web URL via HTTP aus.
Für URL geben oder fügen Sie die vollständige URL der Seite mit den Daten ein, die Sie laden möchten.

Die URL muss die Website-URL und den vollständigen Pfad (mit Dateiname und Erweiterung) zu der Seite mit den zu ladenden Daten enthalten.

Die folgende Seite enthält beispielsweise den Iris-Datensatz aus dem Repository für maschinelles Lernen der University of California, Irvine:

https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data
Für Datenformat wählen Sie eines der unterstützten Datenformate aus der Liste aus.

Es wird empfohlen, die Daten immer vorab zu überprüfen, um das Format zu bestimmen. Die UC Irvine-Seite verwendet das CSV-Format. Andere unterstützte Datenformate sind TSV, ARFF und SvmLight.
Wenn die Daten im CSV- oder TSV-Format vorliegen, verwenden Sie die Option Die Datei enthält eine Kopfzeile, um anzugeben, ob die Quelldaten eine Kopfzeile enthalten oder nicht. Die Kopfzeile dient der Vergabe von Spaltennamen.
Wählen Sie die Optionen zum Verwenden zwischengespeicherter Ergebnisse , wenn Sie nicht erwarten, dass sich die Daten stark ändern, oder wenn Sie vermeiden möchten, dass die Daten bei jeder Durchführung des Experiments neu geladen werden.

Wenn diese Option ausgewählt ist, lädt das Experiment die Daten bei der ersten Ausführung des Moduls und verwendet anschließend eine zwischengespeicherte Version des Datasets.

Wenn Sie das Dataset bei jeder Iteration des Experimentdatasets erneut laden möchten, deaktivieren Sie die Option Zwischengespeicherte Ergebnisse verwenden . Die Ergebnisse werden auch erneut geladen, wenn Änderungen an den Parametern von Import Data vorgenommen wurden.
Führen Sie das Experiment aus.

Ergebnisse

Klicken Sie nach Abschluss des Experiments auf das Ausgabedataset, und wählen Sie Visualisieren aus, um festzustellen, ob die Daten erfolgreich importiert wurden.

Beispiele

Sehen Sie sich diese Beispiele im Azure KI-Katalog von Machine Learning-Experimenten an, die Daten von öffentlichen Websites abrufen:

Beispiel für die Buchstabenerkennung: Ruft ein Trainingsdataset aus dem öffentlichen Machine Learning-Repository ab, das von UC Irvine gehostet wird.
Herunterladen des UCI-Datasets: Liest ein Dataset im CSV-Format.

Technische Hinweise

Dieser Abschnitt enthält Implementierungsdetails, Tipps und Antworten auf häufig gestellte Fragen.

Häufig gestellte Fragen

Kann ich Daten filtern, während sie aus der Quelle gelesen werden?

Nein. Diese Option wird für diese Datenquelle nicht unterstützt.

Nachdem Sie die Daten in Machine Learning Studio (klassisch) gelesen haben, können Sie das Dataset aufteilen, Sampling usw. verwenden, um nur die gewünschten Zeilen zu erhalten:

Schreiben Sie einfachen R-Code in das Execute R Script-Skript , um einen Teil der Daten nach Zeilen oder Spalten abzurufen.
Verwenden Sie das Modul Split Data mit einem relativen ausdruck oder einem regulären Ausdruck, um die gewünschten Daten zu isolieren.
Wenn Sie mehr Daten geladen haben, als Sie benötigen, überschreiben Sie das zwischengespeicherte Dataset, indem Sie ein neues Dataset lesen und es mit dem gleichen Namen speichern.

Wie kann ich vermeiden, die gleichen Daten unnötig erneut zu laden?

Wenn sich die Quelldaten ändern, können Sie das Dataset aktualisieren und neue Daten hinzufügen, indem Sie Import Data erneut ausführen.

Wenn Sie nicht jedes Mal, wenn Sie das Experiment ausführen, erneut aus der Quelle lesen möchten, wählen Sie die Option Zwischengespeicherte Ergebnisse verwenden auf TRUE aus. Wenn diese Option auf TRUE festgelegt ist, überprüft das Modul, ob das Experiment zuvor mit derselben Quelle und den gleichen Eingabeoptionen ausgeführt wurde. Wenn eine vorherige Ausführung gefunden wird, werden die Daten im Cache verwendet, anstatt die Daten erneut aus der Quelle zu laden.

Warum wurde am Ende meines Datasets eine zusätzliche Zeile hinzugefügt?

Wenn das Import Data-Modul auf eine Datenzeile trifft, auf die eine leere Zeile oder ein nachfolgendes Zeilenzeichen folgt, wird am Ende der Tabelle eine zusätzliche Zeile hinzugefügt. Diese neue Zeile enthält die fehlenden Werte.

Der Grund für das Interpretieren einer nachgestellten neuen Zeile als neue Zeile ist, dass Daten importieren den Unterschied zwischen einer tatsächlich leeren Zeile und einer leeren Zeile, die vom Benutzer durch Drücken der EINGABETASTE am Ende einer Datei erstellt wird, nicht bestimmen kann.

Da einige Machine Learning-Algorithmen fehlende Daten unterstützen und diese Zeile daher als Fall behandeln würden (was sich wiederum auf die Ergebnisse auswirken kann), sollten Sie fehlende Daten bereinigen verwenden, um nach fehlenden Werten (insbesondere zeilen, die vollständig leer sind) zu suchen und sie nach Bedarf zu entfernen.

Bevor Sie nach leeren Zeilen suchen, sollten Sie das Dataset auch mithilfe von Daten teilen teilen. Daraufhin werden Zeilen mit teilweise fehlenden Werten getrennt, die tatsächliche fehlende Werte in den Quelldaten darstellen. Verwenden Sie die Option Select head N rows, um den ersten Teil des Datasets in einen separaten Container aus der letzten Zeile zu lesen.

Warum werden einige Zeichen in meiner Quelldatei nicht richtig angezeigt?

Machine Learning unterstützt die UTF-8-Codierung. Wenn in der Quelldatei eine andere Art der Codierung verwendet wurde, können die Zeichen möglicherweise nicht ordnungsgemäß importiert werden.

Modulparameter

Name	Range	type	Standard	Beschreibung
Datenquellen-	Liste	Datenquelle oder Senke	Azure Blob Storage	Die Datenquelle kann HTTP, FTP, anonymes HTTPS oder FTPS, eine Datei in Azure BLOB Storage, eine Azure-Tabelle, eine Azure SQL-Datenbank, eine lokale SQL Server-Datenbank, eine Hive-Tabelle oder ein OData-Endpunkt sein.
URL	any	String	Keine	URL für HTTP
Datenformat	CSV TSV ARFF SvmLight	Datenformat	CSV	Dateityp der HTTP-Quelle
CSV oder TSV hat Kopfzeile	TRUE/FALSE	Boolean	false	Gibt an, ob die CSV- oder TSV-Datei über eine Kopfzeile verfügt.
Zwischengespeicherte Ergebnisse verwenden	TRUE/FALSE	Boolean	FALSE	Das Modul wird nur ausgeführt, wenn kein gültiger Cache vorhanden ist. Andernfalls werden zwischengespeicherte Daten aus der vorherigen Ausführung verwendet.

Ausgaben

Name	Type	Beschreibung
Ergebnisdataset	Datentabelle	Dataset mit den heruntergeladenen Daten.

Ausnahmen

Ausnahme	Beschreibung
Fehler 0027	Eine Ausnahme tritt auf, wenn zwei Objekte gleich groß sein müssen, dies aber nicht der Fall ist.
Fehler 0003	Eine Ausnahme tritt auf, wenn mindestens eine Eingabe NULL oder leer ist.
Fehler 0029	Eine Ausnahme tritt auf, wenn ein ungültiger URI übergeben wird.
Fehler 0030	Eine Ausnahme tritt auf, wenn es nicht möglich ist, eine Datei herunterzuladen.
Fehler 0002	Eine Ausnahme tritt auf, wenn mindestens ein Parameter nicht analysiert oder nicht aus einem angegebenen Typ in den für die Zielmethode erforderlichen Typ konvertiert werden konnte.
Fehler 0048	Eine Ausnahme tritt auf, wenn es nicht möglich, eine Datei zu öffnen.
Fehler 0046	Eine Ausnahme tritt auf, wenn es nicht möglich ist, ein Verzeichnis im angegebenen Pfad zu erstellen.
Fehler 0049	Eine Ausnahme tritt auf, wenn es nicht möglich, eine Datei zu analysieren.

Eine Liste der Fehler, die für Studio-Module (klassisch) spezifisch sind, finden Sie unter Machine Learning Fehlercodes.

Eine Liste der API-Ausnahmen finden Sie unter Machine Learning REST-API-Fehlercodes.

Siehe auch

Daten importieren
Daten exportieren
Importieren aus Hive-Abfrage
Importieren aus Azure SQL-Datenbank
Importieren aus Azure Table
Importieren aus Azure Blob Storage
Importieren aus Datenfeedanbietern
Importieren aus lokaler SQL Server-Datenbank

Share via