Udostępnij za pośrednictwem


Rozpakowywanie zamapowanych zestawów danych

Rozpakowuje zestawy danych z pakietu zip w magazynie użytkowników

Kategoria: Dane wejściowe i wyjściowe

Uwaga

Dotyczy: tylko Machine Learning Studio (klasyczne)

Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.

Omówienie modułu

W tym artykule opisano sposób użycia modułu Rozpakowywanie skompresowanych zestawów danych w programie Machine Learning Studio (wersja klasyczna) w celu przekazywania plików danych i skryptów w skompresowanym formacie, a następnie rozpakuj je do użycia w eksperymencie.

Celem tego modułu jest skrócenie czasu transferu danych podczas pracy z bardzo dużymi zestawami danych przez zapisanie i przekazanie plików danych w skompresowanym formacie. Ogólnie rzecz biorąc, spakowanie plików jest dobrą opcją, gdy zestaw danych jest tak duży, że chcesz użyć kompresji do przekazywania, aby zminimalizować czas przekazywania i powiązane koszty.

Moduł przyjmuje jako dane wejściowe zestaw danych w obszarze roboczym. Zestaw danych musi zostać przekazany w skompresowanym formacie. Następnie moduł dekompresuje zestaw danych i dodaje dane do obszaru roboczego.

Jak rozpakować zamapowane zestawy danych

W tej sekcji opisano, jak przygotować dane, a następnie rozpakować je w programie Machine Learning Studio (wersja klasyczna).

Krok 1. Przygotowywanie plików

Przed przekazaniem pliku upewnij się, że dane w pliku mogą być używane w Machine Learning:

  • Upewnij się, że dane w pliku wykorzystują kodowanie UTF-8.

    Jeśli plik jest wystarczająco mały, możesz otworzyć go w Notatnik a następnie zapisać plik w żądanym kodowania. Wiele innych edytorów tekstów oferuje podobne funkcje. W przypadku plików CSV można Excel polecenia Zapisz jako lub Eksportuj, aby określić format i kodowanie pliku.

  • Sprawdź, czy pliki danych używają obsługiwanego formatu, takiego jak CSV, TSV, ARFF lub SVMLight.

  • Skompresuj dane, dodając plik danych do .ZIP lub . Plik archiwum formatu GZ. Inne typy archiwum nie są obsługiwane.

  • Usuń ochronę hasłem. Jeśli którykolwiek z plików lub skompresowany folder został zaszyfrowany lub chroniony hasłem, przed przekazaniem pliku należy go odblokować lub odszyfrować. Moduł nie może wykryć zaszyfrowanych typów danych i nie obsługuje okien dialogowych dla wprowadzania hasła z dowolnego klienta.

Krok 2. Upload zestawu danych do obszaru roboczego

Następnie przekaż zamapowany zestaw danych do obszaru roboczego eksperymentu.

  1. Kliknij pozycję NOWY, wybierz pozycję ZESTAW DANYCH, a następnie wybierz pozycję FROM LOCAL FILE (Z PLIKU LOKALNEGO).

  2. Znajdź plik zip do przekazania. Po wybraniu pliku typ powinien zostać automatycznie ustawiony na plik zip (.zip)..

Krok 3. Dodawanie zamapowanych zestawów danych do eksperymentowania

Po całkowicie przekazanym zestawie danych dodaj go do eksperymentu w formacie zmapowanych.

  1. W okienku nawigacji po lewej stronie w programie Machine Learning Studio (wersja klasyczna) wybierz pozycję Zapisane zestawy danych, a następnie rozwiń pozycję Moje zestawy danych.

  2. Znajdź zestaw danych ze zmapowanych danych, który właśnie został przekazany, i przeciągnij go do obszaru roboczego eksperymentu.

Krok 4. Rozpakowywanie zestawu danych

Ostatnim krokiem jest rozpakowanie zestawu danych.

  1. Połączenie zamapowany zestaw danych na dane wejściowe modułu Unpack Zipped Datasets (Rozpakuj zamapowane zestawy danych).

  2. W sekcji Zestaw danych do rozpakowywania wpisz nazwę pojedynczego zestawu danych do rozpakowywania.

    • Jeśli arkusz o nazwie Arkusz1 został zapisany jako Excel CSV o nazwie Test.csv, nazwa zestawu danych będzie Test.csv, a nie Arkusz1.

    • Nazwa wpisana w polu tekstowym Dataset to Unpack (Zestaw danych do rozpakowania) musi być dokładnie taka sama jak nazwa oryginalnego pliku przed jego skompresowaniem, łącznie z rozszerzeniem nazwy pliku. Jeśli na przykład chcesz rozpakować zestaw danych na podstawie pliku tekstowego Users.txt, wpisz Users.txt, a nie Users.

    • Jeśli umieścisz wiele plików w jednym skompresowanym folderze, musisz rozpakować po jednym zestawie danych na raz.

    Porada

    Jeśli pozostawisz właściwość pustą, moduł pobiera nazwę pliku ze skompresowanego pliku przy założeniu, że skompresowany plik archiwum zawiera tylko jeden plik źródłowy. Jeśli skompresowane archiwum zawiera wiele plików, zostanie uruchomiony błąd.

  3. W przypadku formatu pliku zestawu danych określ oryginalny format zestawu danych, czyli format, który został wcześniej zamapowany.

    Możesz przekazywać i rozpakować zestawy danych, które zostały utworzone przy użyciu dowolnego z tych formatów: CSV, ARFF, TSV, SvmLight.

    Jeśli ta właściwość pozostaje pusta, moduł zidentyfikuje zestaw danych przy użyciu nazwy pliku źródłowego.

  4. Wybierz opcję Plik ma wiersz nagłówka, jeśli oryginalny zestaw danych zawiera wiersz nagłówka. W przeciwnym razie jako nagłówek zostanie użyty pierwszy wiersz danych. Jeśli to nie jest to, co chcesz, dodaj nagłówek przed wprowadzeniem.

    Ta opcja ma zastosowanie tylko do .CSV i . Pliki TSV.

    Uwaga

    Jeśli zmienisz format pliku, ta opcja zostanie zresetowana.

  5. Jeśli plik jest skompresowany, użyj opcji Format pliku kompresji, aby określić algorytm, który został użyty do skompresowania lub rozwinięcia pliku.

    Obecnie obsługiwane .ZIP i GZ (lub Gzip).

  6. Uruchom eksperyment.

Wyniki

  • Aby sprawdzić, czy dane zostały zaimportowane poprawnie, kliknij prawym przyciskiem myszy moduł Unpacked Zeipped Datasets (Rozpakowane zestawy danych), a następnie wybierz pozycję Visualize (Wizualizacja).

  • Aby zmienić nazwę zestawu danych, kliknij prawym przyciskiem myszy moduł Unpacked Zeipped Datasets (Rozpakowane zestawy danych), a następnie wybierz pozycję Save as Dataset (Zapisz jako zestaw danych). W tym momencie możesz wpisać inną nazwę.

    Ta opcja jest przydatna w przypadku rozpakowywania wielu zestawów danych z jednego pliku ZIP.

Przykłady

Aby zademonstrować działanie tego modułu, utworzono przykładowy plik .ZIP zawierający cztery różne pliki CSV. Wszystkie pliki zostały zapisane z Excel.

Nazwa pliku Opis
names-uni.csv Plik Unicode z nagłówkami kolumn
names-utf.csv Plik UTF-8 z nagłówkami kolumn
nonames-uni.csv Plik Unicode bez nagłówków kolumn
nonames-utf8.csv Plik UTF-8 bez nagłówków kolumn

Cały plik zip został przekazany, a następnie moduł Unpack Zipped Datasets został uruchomiony cztery razy w celu wyodrębnienia każdego z czterech plików przy użyciu tych ustawień:

  1. Zestaw danych do rozpakowywania = names-uni.csv, plik ma wiersz nagłówka = TRUE
  2. Zestaw danych do rozpakowywania = names-utf8.csv, plik ma wiersz nagłówka = TRUE
  3. Zestaw danych do rozpakowywania = nonames-uni.csv, plik ma wiersz nagłówka = FALSE
  4. Zestaw danych do rozpakowywania = nonames-utf8.csv, plik ma wiersz nagłówka = FALSE

Wyniki były zgodnie z oczekiwaniami:

Nazwa pliku Upload wynik
names-uni.csv Błąd 0049: Błąd podczas analizowania pliku. Plik nie jest zakodowany w formacie Unicode (UTF-8)
names-utf8.csv Powodzenie. Używa oryginalnych nazw kolumn z pliku źródłowego.
nonames-uni.csv Błąd 0049: Błąd podczas analizowania pliku. Plik nie jest zakodowany w formacie Unicode (UTF-8)
nonames-utf8.csv Powodzenie. Nazwy kolumn Col1, col2, ... Kolumny coln są automatycznie dodawane do zestawu danych.

Uwaga

Jeśli używasz opcji Plik ma wiersz nagłówka = TRUE, a plik źródłowy w rzeczywistości nie ma nagłówka kolumny, pierwszy wiersz danych jest używany jako nagłówek kolumny.

Uwagi techniczne

Za pomocą tego modułu nie można rozpakować zamapowanych pakietów R do obszaru roboczego. Pakiety R muszą być przekazywane i używane jako pliki zmapowane.

Aby uzyskać więcej informacji na temat pracy ze zmapowanych pakietów R, zobacz Execute R Script (Wykonywanie skryptu R).

Uwaga

Nie pomylisz różnicy między formatami UTF-8 i Unicode? Zobacz ten artykuł w Wikipedii: Co to jest UTF-8

Parametry modułu

Nazwa Zakres Typ Domyślny Opis
Format pliku kompresji Zip

Gzip
reguła kompresji Zip Algorytm kompresji używany do kompresowania lub rozszerzania pliku.
Zestaw danych do rozpakowywania Dowolne Ciąg brak Nazwa zestawu danych do zarejestrowania w usłudze Azure ML Studio (wersja klasyczna). Jeśli nie określono nazwy zestawu danych, nazwa jest uzyskiwana z nazwy pliku w pliku zip.
Format pliku zestawu danych CSV

TSV

ARFF

SVMLIGHT
Format pliku CSV Format pliku zestawu danych w pliku zip
Plik ma wiersz nagłówka PRAWDA/FAŁSZ Wartość logiczna Fałsz Ustaw wartość True tylko wtedy, gdy plik CSV/TSV ma wiersz nagłówka

Oczekiwane dane wejściowe

Nazwa Typ Opis
Zestaw danych Zip Plik zip zawierający zestawy danych

Dane wyjściowe

Nazwa Typ Opis
Zestaw danych wyników Tabela danych Wyjściowy zestaw danych

Zobacz też

Dane wejściowe i wyjściowe