Entpacken von gezippten Datasets

Entpackt Datasets aus einem ZIP-Paket im Benutzerspeicher

Kategorie: Dateneingabe und -ausgabe

Hinweis

Gilt für: Machine Learning Studio (klassisch)

Ähnliche Drag & Drop-Module sind im Azure Machine Learning-Designer verfügbar.

Modulübersicht

In diesem Artikel wird beschrieben, wie Sie das Modul Entpacken gezippter Datasets in Machine Learning Studio (klassisch) verwenden, um Daten und Skriptdateien im komprimierten Format hochzuladen und sie dann für die Verwendung in einem Experiment zu entzippen.

Der Zweck dieses Moduls besteht in der Reduzierung der Datenübertragungszeiten bei der Arbeit mit sehr großen Datasets, indem Ihre Datendateien in einem komprimierten Format gespeichert und hochgeladen werden. Im Allgemeinen ist das Zippen von Dateien eine gute Option, wenn Ihr Dataset so groß ist, dass Sie die Komprimierung für den Upload verwenden möchten, um die Uploadzeit und die damit verbundenen Kosten zu minimieren.

Das Modul verwendet als Eingabe ein Dataset in Ihrem Arbeitsbereich. Das Dataset muss in einem komprimierten Format hochgeladen worden sein. Das Modul dekomprimiert dann das Dataset und fügt die Daten Ihrem Arbeitsbereich hinzu.

Verwenden von entpackten gezippten Datasets

In diesem Abschnitt wird beschrieben, wie Sie Ihre Daten vorbereiten und dann in Machine Learning Studio (klassisch) entzippen.

Schritt 1: Vorbereiten von Dateien

Stellen Sie vor dem Hochladen der Datei sicher, dass die Daten in der Datei in folgenden Machine Learning:

  • Stellen Sie sicher, dass die Daten in der Datei UTF-8-Codierung verwenden.

    Wenn die Datei klein genug ist, können Sie sie in Editor öffnen und die Datei dann in der gewünschten Codierung speichern. Viele andere Text-Editoren bieten ähnliche Funktionen. Für CSV-Dateien können Sie die Excel- oder Exportbefehle verwenden, um ein Dateiformat und eine Codierung anzugeben.

  • Stellen Sie sicher, dass die Datendateien ein unterstütztes Format verwenden, z. B. CSV, TSV, ARFF oder SVMLight.

  • Komprimieren Sie die Daten, indem Sie die Datendatei einem .ZIP oder hinzufügen. Archivdatei im GZ-Format. Andere Archivtypen werden nicht unterstützt.

  • Entfernen Sie den Kennwortschutz. Wenn eine der Dateien oder der komprimierte Ordner selbst verschlüsselt oder kennwortgeschützt wurde, müssen Sie die Datei entsperren oder entschlüsseln, bevor Sie sie hochladen. Das Modul kann keine verschlüsselten Datentypen erkennen und unterstützt keine Dialogfelder für die Kennworteingabe von beliebigen Clients.

Schritt 2 Hochladen Dataset in Ihren Arbeitsbereich

Laden Sie als Nächstes das gezippte Dataset in Ihren Experimentarbeitsbereich hoch.

  1. Klicken Sie auf NEU, wählen Sie DATASET aus, und wählen Sie FROM LOCAL FILE (AUS LOKALER DATEI) aus.

  2. Suchen Sie die hochzuladende ZIP-Datei. Wenn Sie die Datei auswählen, sollte der Typ automatisch auf ZIP-Datei (.zip) festgelegt werden.

Schritt 3: Hinzufügen eines gezippten Datasets zum Experiment

Nachdem das Dataset vollständig hochgeladen wurde, fügen Sie es Ihrem Experiment im ZIP-Format hinzu.

  1. Wählen Sie im linken Navigationsbereich von Machine Learning Studio (klassisch) gespeicherte Datasets aus, und erweitern Sie dann Meine Datasets.

  2. Suchen Sie das gerade hochgeladene ZIP-Dataset, und ziehen Sie es in den Experimentbereich.

Schritt 4. Entpacken des Datasets

Der letzte Schritt besteht im Entpacken des Datasets.

  1. Verbinden sie das gezippte Dataset in die Eingabe des Moduls Entpacken gezippter Datasets ein.

  2. Geben Sie unter Zu entpackende Dataset den Namen eines einzelnen Datasets ein, das entpackt werden soll.

    • Wenn Sie ein Arbeitsblatt mit dem Namen Sheet1 als Excel CSV-Datei mit dem Namen Test.csvgespeichert haben, wird der Name des Datasets Test.csv, nicht Sheet1.

    • Der Name, den Sie in das Textfeld Dataset to Unpack (Zu entpackende Datasets) eingeben, muss genau mit dem Namen der ursprünglichen Datei vor der Komprimierung identisch sein, einschließlich der Dateierweiterung. Wenn Sie z. B. ein Dataset basierend auf der Textdatei entpacken möchten Users.txt, geben Sie Users.txtund nicht Benutzer ein.

    • Wenn Sie mehrere Dateien in einem komprimierten Ordner speichern, müssen Sie ein Dataset nach dem anderen entpacken.

    Tipp

    Wenn Sie die Eigenschaft leer lassen, ruft das Modul den Dateinamen aus der ZIP-Datei ab, vorausgesetzt, die komprimierte Archivdatei enthält nur eine Quelldatei. Wenn das komprimierte Archiv mehrere Dateien enthält, wird ein Laufzeitfehler ausgelöst.

  3. Geben Sie unter Datasetdateiformat das ursprüngliche Format des Datasets an: das Format, bevor es gezippt wurde.

    Sie können Datasets hochladen und entzippen, die mit einem der folgenden Formate erstellt wurden: CSV, ARFF, TSV, SvmLight.

    Wenn diese Eigenschaft leer gelassen wird, identifiziert das Modul das Dataset mithilfe des Quelldateinamens.

  4. Wählen Sie die Option Datei hat Kopfzeile aus, wenn das ursprüngliche Dataset eine Kopfzeile hatte. Andernfalls wird die erste Datenzeile als Header verwendet. Wenn dies nicht der Fall ist, fügen Sie vor der Eingabe einen Header hinzu.

    Diese Option gilt nur für .CSV und . TSV-Dateien.

    Hinweis

    Wenn Sie das Format der Datei ändern, wird diese Option zurückgesetzt.

  5. Wenn die Datei komprimiert ist, verwenden Sie die Option Komprimierungsdateiformat, um den Algorithmus anzugeben, der zum Komprimieren oder Erweitern der Datei verwendet wurde.

    Derzeit werden .ZIP- und GZ-Formate (oder Gzip) unterstützt.

  6. Führen Sie das Experiment aus.

Ergebnisse

  • Um zu überprüfen, ob die Daten ordnungsgemäß importiert wurden, klicken Sie mit der rechten Maustaste auf das Modul Entpackte gezippte Datasets , und wählen Sie Visualisieren aus .

  • Um den Namen des Datasets zu ändern, klicken Sie mit der rechten Maustaste auf das Modul Entpackte gezippte Datasets , und wählen Sie Als Dataset speichern aus. An diesem Punkt können Sie einen anderen Namen eingeben.

    Diese Option ist praktisch, wenn Sie mehrere Datasets aus einer einzelnen ZIP-Datei entpacken.

Beispiele

Um die Funktionsweise dieses Moduls zu veranschaulichen, haben wir eine Beispieldatei .ZIP, die vier verschiedene CSV-Dateien enthält. Alle Dateien wurden aus dem Excel.

Dateiname BESCHREIBUNG
names-uni.csv Unicode-Datei mit Spaltenüberschriften
names-utf.csv UTF-8-Datei mit Spaltenüberschriften
nonames-uni.csv Unicode-Datei ohne Spaltenüberschriften
nonames-utf8.csv UTF-8-Datei ohne Spaltenüberschriften

Die gesamte ZIP-Datei wurde hochgeladen, und dann wurde das Modul Entpacken gezippter Datasets viermal ausgeführt, um jede der vier Dateien mithilfe dieser Einstellungen zu extrahieren:

  1. Dataset zum Entpacken = names-uni.csv, Datei hat Headerzeile = TRUE
  2. Dataset zum Entpacken = names-utf8.csv, Datei hat Headerzeile = TRUE
  3. Dataset zum Entpacken = nonames-uni.csv, Datei hat Headerzeile = FALSE
  4. Dataset zum Entpacken = nonames-utf8.csv, Datei hat Headerzeile = FALSE

Die Ergebnisse waren wie erwartet:

Dateiname Hochladen Ergebnis
names-uni.csv Fehler 0049: Fehler beim Analyse der Datei. Datei ist nicht Unicode-codiert (UTF-8)
names-utf8.csv Erfolg. Verwendet ursprüngliche Spaltennamen aus der Quelldatei.
nonames-uni.csv Fehler 0049: Fehler beim Analyse der Datei. Datei ist nicht Unicode-codiert (UTF-8)
nonames-utf8.csv Erfolg. Spaltennamen Col1, col2, ... coln wird dem Dataset automatisch hinzugefügt.

Hinweis

Wenn Sie die Option File has header row = TRUE verwenden und die Quelldatei tatsächlich keine Spaltenüberschrift hat, wird die erste Datenzeile als Spaltenüberschrift verwendet.

Technische Hinweise

Sie können dieses Modul nicht verwenden, um gezippte R-Pakete in Ihren Arbeitsbereich zu entpacken. R-Pakete müssen hochgeladen und als ZIP-Dateien verwendet werden.

Weitere Informationen zum Arbeiten mit gezippten R-Paketen finden Sie unter Execute R Script.

Hinweis

Sind Sie über den Unterschied zwischen UTF-8 und Unicode verwirrend? Lesen Sie diesen Wikipedia-Artikel: Was ist UTF-8?

Modulparameter

Name Range type Standard Beschreibung
Format der Komprimierungsdatei Zip

GZip
Komprimierungsregel Zip Komprimierungsalgorithmus zum Komprimieren oder Erweitern der Datei.
Zu entpackende Datasets Any String Keine Name des Datasets, das bei Azure ML Studio (klassisch) registriert werden soll. Wenn der Name eines Datasets nicht angegeben ist, wird der Name aus dem Dateinamen in der ZIP-Datei ermittelt.
Datasetdateiformat CSV

TSV

ARFF

SVMLIGHT
Dateiformat CSV Dateiformat des Datasets in der ZIP-Datei
Datei hat Kopfzeile TRUE/FALSE Boolean False Nur auf True festgelegt , wenn die CSV/TSV-Datei über eine Kopfzeile verfügt

Erwartete Eingaben

Name Type Beschreibung
Dataset Zip ZIP-Datei mit Datasets

Output

Name Type Beschreibung
Ergebnisdataset Datentabelle Ausgabedataset

Siehe auch

Dateneingabe und -ausgabe