Eksportowanie do Azure Blob Storage
Ważne
Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.
Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).
- Zobacz informacje na temat przenoszenia projektów uczenia maszynowego z programu ML Studio (wersja klasyczna) do Azure Machine Learning.
- Dowiedz się więcej o Azure Machine Learning.
Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.
W tym artykule opisano sposób użycia opcji Eksportuj do Azure Blob Storage w module Eksportowanie danych w programie Machine Learning Studio (wersja klasyczna).
Uwaga
Dotyczy: tylko Machine Learning Studio (klasyczne)
Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.
Ta opcja jest przydatna, gdy chcesz wyeksportować dane z eksperymentu uczenia maszynowego do Azure Blob Storage. Na przykład możesz chcieć udostępnić dane wyjściowe danych uczenia maszynowego innym aplikacjom lub przechowywać dane pośrednie lub oczyszczone zestawy danych do użycia w innych eksperymentach.
Dostęp do obiektów blob platformy Azure można uzyskać z dowolnego miejsca przy użyciu protokołu HTTP lub HTTPS. Ponieważ Azure Blob Storage jest magazynem danych bez struktury, można eksportować dane w różnych formatach. Obecnie obsługiwane są formaty CSV, TSV i ARFF.
Aby wyeksportować dane do obiektu blob platformy Azure do użycia przez inne aplikacje, użyj modułu Eksportuj dane, aby zapisać dane w Azure Blob Storage. Następnie użyj dowolnego narzędzia, które może odczytywać dane z usługi Azure Storage (np. Excel, narzędzi magazynu w chmurze lub innych usług w chmurze), aby załadować dane i korzystać z nich.
Uwaga
Moduły Importuj danei Eksportuj dane mogą odczytywać i zapisywać tylko dane z usługi Azure Storage utworzonej przy użyciu klasycznego modelu wdrażania. Innymi słowy, nowy typ Azure Blob Storage, który oferuje warstwy dostępu do magazynu gorącego i chłodnego, nie jest jeszcze obsługiwany.
Ogólnie rzecz biorąc, nie ma to wpływu na wszystkie konta usługi Azure Storage, które mogły zostać utworzone przed tą opcją usługi.
Jeśli jednak musisz utworzyć nowe konto do użycia z usługą Machine Learning, zalecamy wybranie opcji Klasyczny dla modelu wdrażania lub użycie usługi Resource Manager, a w przypadku opcji Rodzaj konta wybierz pozycję Ogólnego przeznaczenia, a nie Magazyn obiektów blob.
Jak wyeksportować dane do Azure Blob Storage
Usługa Azure Blob Service jest do przechowywania dużych ilości danych, w tym danych binarnych. Istnieją dwa typy magazynu obiektów blob: publiczne obiekty blob i obiekty blob, które wymagają poświadczeń logowania.
Dodaj moduł Eksportuj dane do eksperymentu. Ten moduł można znaleźć w kategorii Dane wejściowe i Wyjściowe w programie Studio (wersja klasyczna).
Połączenie dane do modułu, który generuje dane, które chcesz wyeksportować do Azure Blob Storage.
Otwórz okienko Właściwości okna Eksportuj dane. Jako miejsce docelowe danych wybierz pozycję Azure Blob Storage.
W polu Typ uwierzytelniania wybierz opcję Publiczny (adres URL sygnatury dostępu współdzielonego), jeśli wiesz, że magazyn obsługuje dostęp za pośrednictwem adresu URL sygnatury dostępu współdzielonego.
Adres URL sygnatury dostępu współdzielonego to specjalny typ adresu URL, który można wygenerować za pomocą narzędzia magazynu platformy Azure i jest dostępny tylko przez ograniczony czas. Zawiera wszystkie informacje potrzebne do uwierzytelniania i pobierania.
W obszarze URI wpisz lub wklej pełny adres URI, który definiuje konto i publiczny obiekt blob.
W przypadku kont prywatnych wybierz pozycję Konto i podaj nazwę konta oraz klucz konta, aby eksperyment był w stanie zapisywać dane na koncie magazynu.
Nazwa konta: wpisz lub wklej nazwę konta, w którym chcesz zapisać dane. Jeśli na przykład pełny adres URL konta magazynu to
https://myshared.blob.core.windows.net
, należy wpisać .myshared
Klucz konta: wklej klucz dostępu do magazynu skojarzony z kontem.
Ścieżka do kontenera, katalogu lub obiektu blob: wpisz nazwę obiektu blob, w którym będą przechowywane wyeksportowane dane. Aby na przykład zapisać wyniki eksperymentu w nowym obiekcie blob o nazwie results01.csv w przewidywaniach kontenera na koncie o nazwie mymldata, pełnym adresem URL obiektu blob
https://mymldata.blob.core.windows.net/predictions/results01.csv
będzie .W związku z tym w polu Ścieżka do kontenera, katalogu lub obiektu blob należy określić nazwę kontenera i obiektu blob w następujący sposób:
predictions/results01.csv
Jeśli określisz nazwę obiektu blob, który jeszcze nie istnieje, platforma Azure utworzy ten obiekt blob za Ciebie.
Podczas zapisywania w istniejącym obiekcie blob można określić, że bieżąca zawartość obiektu blob zostanie zastąpiona przez ustawienie właściwości Azure Blob Storage tryb zapisu. Domyślnie ta właściwość jest ustawiona na błąd, co oznacza, że błąd jest wywoływany za każdym razem, gdy zostanie znaleziony istniejący plik obiektów blob o tej samej nazwie.
W przypadku opcji Format pliku dla pliku obiektu blob wybierz format, w którym mają być przechowywane dane.
CSV: wartości rozdzielane przecinkami (CSV) są domyślnym formatem magazynu. Aby wyeksportować nagłówki kolumn wraz z danymi, wybierz opcję Zapisz wiersz nagłówka obiektu blob. Aby uzyskać więcej informacji na temat formatu rozdzielanego przecinkami używanego w programie Machine Learning, zobacz Konwertowanie na format CSV.
TSV: format wartości rozdzielanych tabulatorami (TSV) jest zgodny z wieloma narzędziami uczenia maszynowego. Aby wyeksportować nagłówki kolumn wraz z danymi, wybierz opcję Zapisz wiersz nagłówka obiektu blob. Aby uzyskać więcej informacji o formacie rozdzielanym tabulatorami używanym w Machine Learning, zobacz Konwertowanie na TSV.
ARFF: ten format obsługuje zapisywanie plików w formacie używanym przez zestaw narzędzi weka. Ten format nie jest obsługiwany w przypadku plików przechowywanych w adresie URL sygnatury dostępu współdzielonego. Aby uzyskać więcej informacji na temat formatu ARFF, zobacz Convert to ARFF (Konwertowanie na ARFF).
Użyj buforowanych wyników: wybierz tę opcję, jeśli chcesz uniknąć ponownego zapisu wyników w pliku obiektów blob za każdym razem, gdy uruchamiasz eksperyment. Jeśli nie ma żadnych innych zmian parametrów modułu, eksperyment zapisuje wyniki tylko przy pierwszym uruchomieniu modułu lub w przypadku zmian danych.
Przykłady
Przykłady użycia modułu Eksportowanie danych można znaleźć w Azure AI Gallery:
Konwertowanie zestawu danych na format VW: ten eksperyment używa skryptu języka Python wraz z modułem Eksportowanie danych do tworzenia danych, które mogą być używane przez usługę Vowpal Wabbit.
Konfigurowanie potoków analizy predykcyjnej przy użyciu Azure SQL Data Warehouse: w tym scenariuszu opisano przepływ danych między wieloma składnikami, w tym Machine Learning i SQL Data Warehouse.
Ocenianie wsadowe bez kodu: w tym samouczku pokazano, jak za pomocą usługi Azure Logic Apps zautomatyzować importowanie danych używanych przez eksperymenty i zapisywanie wyników eksperymentów w magazynie obiektów blob.
Operationalize Azure ML solution with On-premisesse SQL Server using Azure data factory (Z operationalize Azure ML solution with On-premisesse SQL Server using Azure data factory ( Z operationalize Azure ML solution with On-premisesse SQL Server using Azure Data Factory (Przetwarzanie operacyjne rozwiązania Azure ML przy użyciu usługi Azure Data Factory): W tym artykule opisano bardziej złożony potok danych, który wysyła dane z powrotem do lokalnej bazy danych usługi SQL Server przy użyciu magazynu obiektów blob jako etapu pośredniego. Korzystanie z lokalnej bazy danych wymaga konfiguracji bramy danych, ale możesz pominąć tę część przykładu i po prostu użyć magazynu obiektów blob.
Uwagi techniczne
Ta sekcja zawiera szczegóły implementacji, porady i odpowiedzi na często zadawane pytania.
Często zadawane pytania
Jak uniknąć zapisywania danych, jeśli eksperyment nie został zmieniony
Po zmianie wyników eksperymentu eksportowanie danych zawsze zapisuje nowy zestaw danych. Jeśli jednak eksperyment jest wielokrotnie uruchomiony bez dokonywania zmian, które mają wpływ na dane wyjściowe, możesz wybrać opcję Użyj buforowanych wyników .
Moduł sprawdza, czy eksperyment został wcześniej uruchomiony przy użyciu tych samych danych i tych samych opcji, a jeśli znaleziono poprzedni przebieg, operacja zapisu nie jest powtarzana.
Czy mogę zapisać dane na koncie w innym regionie geograficznym
Tak, możesz zapisywać dane na kontach w różnych regionach. Jeśli jednak konto magazynu znajduje się w innym regionie niż węzeł obliczeniowy używany do eksperymentu uczenia maszynowego, dostęp do danych może być wolniejszy. Ponadto są naliczane opłaty za ruch przychodzący i wychodzący danych w subskrypcji.
Parametry modułu
Opcje ogólne
Nazwa | Zakres | Typ | Domyślny | Opis |
---|---|---|---|---|
Źródło danych | Lista | Źródło danych lub ujścia | Azure Blob Storage | Miejscem docelowym może być plik w usłudze Azure BLOB Storage, tabela platformy Azure, tabela lub widok w Azure SQL Database lub tabela programu Hive. |
Używanie buforowanych wyników | PRAWDA/FAŁSZ | Wartość logiczna | FALSE | Moduł jest wykonywany tylko wtedy, gdy nie istnieje prawidłowa pamięć podręczna; w przeciwnym razie użyj danych buforowanych z wcześniejszego wykonania. |
Określ typ uwierzytelniania | Sygnatura dostępu współdzielonego/konto | Authenticationtype | Konto | Wskazuje, czy do autoryzacji dostępu mają być używane poświadczenia sygnatury dostępu współdzielonego lub konta |
Publiczna lub SAS — opcje magazynu publicznego
Nazwa | Zakres | Typ | Domyślny | Opis |
---|---|---|---|---|
Sygnatura dostępu współdzielonego dla obiektu blob | dowolny | Ciąg | brak | Sygnatura dostępu współdzielonego obiektu blob, w który ma zostać zapisany (wymagany) |
Format pliku dla pliku SAS | ARFF CSV TSV |
LoaderUtils.FileTypes | CSV | Wskazuje, czy plik to CSV, TSV lub ARFF. (wymagane) |
Zapis wiersza nagłówka sygnatury dostępu współdzielonego | PRAWDA/FAŁSZ | Wartość logiczna | FALSE | Wskazuje, czy nagłówki kolumn powinny być zapisywane w pliku |
Konto — opcje magazynu prywatnego
Nazwa | Zakres | Typ | Domyślny | Opis |
---|---|---|---|---|
Nazwa konta platformy Azure | dowolny | Ciąg | brak | Nazwa konta użytkownika platformy Azure |
Klucz konta platformy Azure | dowolny | Securestring | brak | Klucz usługi Azure Storage |
Ścieżka do obiektu blob rozpoczynająca się od kontenera | dowolny | Ciąg | brak | Nazwa pliku obiektu blob, począwszy od nazwy kontenera |
Azure Blob Storage tryb zapisu | Lista: Błąd, Zastępowanie | enum:BlobFileWriteMode | Błąd | Wybieranie metody zapisywania plików obiektów blob |
Format pliku dla pliku obiektu blob | ARFF CSV TSV |
LoaderUtils.FileTypes | CSV | Wskazuje, czy plik obiektu blob to CSV, TSV lub ARFF |
Zapis wiersza nagłówka obiektu blob | PRAWDA/FAŁSZ | Wartość logiczna | FALSE | Wskazuje, czy plik obiektu blob powinien mieć wiersz nagłówka |
Wyjątki
Wyjątek | Opis |
---|---|
Błąd 0027 | Wyjątek występuje, gdy dwa obiekty muszą mieć ten sam rozmiar, ale nie. |
Błąd 0003 | Wyjątek występuje, jeśli co najmniej jeden element wejściowy ma wartość null lub jest pusty. |
Błąd 0029 | Wyjątek występuje, gdy zostanie przekazany nieprawidłowy identyfikator URI. |
Błąd 0030 | występuje wyjątek w programie , gdy nie jest możliwe pobranie pliku. |
Błąd 0002 | Wyjątek występuje, jeśli co najmniej jeden parametr nie może być analizowany lub konwertowany z określonego typu na typ wymagany przez metodę docelową. |
Błąd 0009 | Wyjątek występuje, jeśli nazwa konta usługi Azure Storage lub nazwa kontenera jest niepoprawnie określona. |
Błąd 0048 | Wyjątek występuje, gdy nie jest możliwe otwarcie pliku. |
Błąd 0046 | Wyjątek występuje, gdy nie jest możliwe utworzenie katalogu w określonej ścieżce. |
Błąd 0049 | Wyjątek występuje, gdy nie jest możliwe analizowanie pliku. |
Aby uzyskać listę błędów specyficznych dla modułów programu Studio (wersja klasyczna), zobacz Machine Learning Kody błędów.
Aby uzyskać listę wyjątków interfejsu API, zobacz Machine Learning API REST Error Codes (Kody błędów interfejsu API REST).
Zobacz też
Importowanie danych
Eksportowanie danych
Eksportowanie do Azure SQL Database
Eksportowanie do zapytania Hive
Eksportowanie do tabeli platformy Azure