Delen via


Exporteren naar Azure Blob Storage

Belangrijk

De ondersteuning voor Azure Machine Learning-studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden om vóór die datum over te stappen naar Azure Machine Learning.

Vanaf 1 december 2021 kunt u geen nieuwe resources voor Azure Machine Learning-studio (klassiek) meer maken. Tot en met 31 augustus 2024 kunt u de bestaande resources van Azure Machine Learning-studio (klassiek) blijven gebruiken.

De documentatie van ML-studio (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet meer bijgewerkt.

In dit artikel wordt beschreven hoe u de optie Exporteren Azure Blob Storage gebruiken in de module Gegevens exporteren in Machine Learning Studio (klassiek).

Notitie

Van toepassing op: Machine Learning Studio (klassiek)

Vergelijkbare modules voor slepen en neerzetten zijn beschikbaar in Azure Machine Learning designer.

Deze optie is handig als u gegevens wilt exporteren van een machine learning experiment naar Azure Blob Storage. U kunt bijvoorbeeld gegevensuitvoer machine learning delen met andere toepassingen, of tussenliggende gegevens of opgeschoonde gegevenssets opslaan voor gebruik in andere experimenten.

Azure-blobs zijn overal toegankelijk via HTTP of HTTPS. Omdat Azure Blob Storage een ongestructureerd gegevensopslag is, kunt u gegevens in verschillende indelingen exporteren. Momenteel worden CSV-, TSV- en ARFF-indelingen ondersteund.

Als u gegevens wilt exporteren naar Een Azure-blob voor gebruik door andere toepassingen, gebruikt u de module Gegevens exporteren om de gegevens op te slaan in Azure Blob Storage. Gebruik vervolgens elk hulpprogramma dat gegevens uit Azure Storage kan lezen (zoals Excel, cloudopslaghulpprogramma's of andere cloudservices) om de gegevens te laden en te gebruiken.

Notitie

De modules Gegevens importeren en Gegevens exporteren kunnen alleen gegevens lezen en schrijven uit Azure Storage die zijn gemaakt met het klassieke implementatiemodel. Met andere woorden, het nieuwe Azure Blob Storage accounttype dat toegangslagen voor 'hot' en 'cool' opslag biedt, wordt nog niet ondersteund.

Over het algemeen moeten alle Azure-opslagaccounts die u hebt gemaakt voordat deze serviceoptie beschikbaar werd, niet worden beïnvloed.

Als u echter een nieuw account moet maken voor gebruik met Machine Learning, raden we u aan klassiek te selecteren voor het implementatiemodel of Resource Manager te gebruiken en bij Soort account de optie Algemeen gebruik te selecteren in plaats van Blob Storage.

Gegevens exporteren naar Azure Blob Storage

De Azure Blob-service is voor het opslaan van grote hoeveelheden gegevens, waaronder binaire gegevens. Er zijn twee typen blob-opslag: openbare blobs en blobs waarvoor aanmeldingsreferenties zijn vereist.

  1. Voeg de module Gegevens exporteren toe aan uw experiment. U vindt deze module in de categorie Gegevensinvoer en - uitvoer in Studio (klassiek).

  2. Verbinding maken Gegevens exporteren naar de module die de gegevens produceert die u wilt exporteren naar Azure Blob Storage.

  3. Open het deelvenster Eigenschappen van Gegevens exporteren. Selecteer voor de gegevensbestemming Azure Blob Storage.

  4. Bij Verificatietype kiest u Openbare (SAS-URL) als u weet dat de opslag toegang via een SAS-URL ondersteunt.

    Een SAS-URL is een speciaal type URL dat kan worden gegenereerd met behulp van een Azure-opslagprogramma en slechts een beperkte periode beschikbaar is. Het bevat alle informatie die nodig is voor verificatie en download.

    Voor URI typt of plakt u de volledige URI die het account en de openbare blob definieert.

  5. Voor privéaccounts kiest u Account en geeft u de accountnaam en de accountsleutel op, zodat het experiment naar het opslagaccount kan schrijven.

    • Accountnaam: typ of plak de naam van het account waarin u de gegevens wilt opslaan. Als de volledige URL van het opslagaccount bijvoorbeeld is https://myshared.blob.core.windows.net, typt u myshared.

    • Accountsleutel: Plak de toegangssleutel voor opslag die aan het account is gekoppeld.

  6. Pad naar container, map of blob: typ de naam van de blob waarin de geëxporteerde gegevens worden opgeslagen. Als u bijvoorbeeld de resultaten van uw experiment wilt opslaan in een nieuwe blob met de naam results01.csv in de containervoorspellingen in een account met de naam mymldata, is de volledige URL voor de blob https://mymldata.blob.core.windows.net/predictions/results01.csv.

    Daarom geeft u in het veld Pad naar container, map of blob de container- en blobnaam als volgt op: predictions/results01.csv

  7. Als u de naam opgeeft van een blob die nog niet bestaat, maakt Azure de blob voor u.

    Wanneer u naar een bestaande blob schrijft, kunt u opgeven dat de huidige inhoud van de blob wordt overschreven door de eigenschap in te stellen Azure Blob Storage schrijfmodus. Deze eigenschap is standaard ingesteld op Fout, wat betekent dat er een fout wordt weergegeven wanneer een bestaand blobbestand met dezelfde naam wordt gevonden.

  8. Selecteer voor Bestandsindeling voor blobbestand de indeling waarin gegevens moeten worden opgeslagen.

    • CSV: Door komma's gescheiden waarden (CSV) is de standaardopslagindeling. Als u kolomkoppen samen met de gegevens wilt exporteren, selecteert u de optie Rij blobheader schrijven. Zie Converteren naar CSV voor meer informatie over de door komma's Machine Learning gebruikt.

    • TSV: TSV-indeling (Tab-Separated Values) is compatibel met veel machine learning hulpprogramma's. Als u kolomkoppen samen met de gegevens wilt exporteren, selecteert u de optie Rij blobheader schrijven. Zie Converteren naar TSV voor meer informatie over de door Machine Learning door tabs gescheiden indeling.

    • ARFF: deze indeling ondersteunt het opslaan van bestanden in de indeling die wordt gebruikt door de Weka-toolset. Deze indeling wordt niet ondersteund voor bestanden die zijn opgeslagen in een SAS-URL. Zie Converteren naar ARFF voor meer informatie over de ARFF-indeling.

  9. In cache opgeslagen resultaten gebruiken: selecteer deze optie als u wilt voorkomen dat de resultaten telkens wanneer u het experiment uitvoeren de resultaten in het blobbestand herschrijft. Als er geen andere wijzigingen in moduleparameters zijn, schrijft het experiment de resultaten alleen wanneer de module voor het eerst wordt uitgevoerd of wanneer er wijzigingen in de gegevens zijn.

Voorbeelden

Zie de volgende informatie voor voorbeelden van het gebruik van de module Azure AI Gallery:

  • Gegevensset converteren naar VW-indeling: In dit experiment wordt een Python-script gebruikt in samenwerking met de module Gegevens exporteren om gegevens te maken die kunnen worden gebruikt door Vowpal Wabbit.

  • Het instellen predictive analytics pijplijnen met behulp van Azure SQL Data Warehouse: in dit scenario wordt de verplaatsing van gegevens tussen meerdere onderdelen beschreven, waaronder Machine Learning en SQL Data Warehouse.

  • Batchscore zonder code: in deze zelfstudie wordt gedemonstreerd hoe u Azure Logic Apps kunt gebruiken om zowel het importeren van gegevens die worden gebruikt door experimenten als het schrijven van experimentresultaten naar blobopslag te automatiseren.

  • Azure ML-oplossing operationeel maken met on-premises SQL Server met behulp van Azure data factory: in dit artikel wordt een complexere gegevenspijplijn beschreven die gegevens terugsteert naar een on-premises SQL Server-database, met behulp van blobopslag als een tussentijdse fase. Voor het gebruik van een on-premises database is configuratie van een gegevensgateway vereist, maar u kunt dat deel van het voorbeeld overslaan en alleen blobopslag gebruiken.

Technische opmerkingen

Deze sectie bevat implementatiedetails, tips en antwoorden op veelgestelde vragen.

Veelgestelde vragen

Hoe kan ik voorkomen dat ik de gegevens schrijf als het experiment niet is gewijzigd?

Wanneer de resultaten van uw experiment worden gewijzigd, slaat Gegevens exporteren altijd de nieuwe gegevensset op. Als u het experiment echter herhaaldelijk wilt uitvoeren zonder wijzigingen aan te brengen die van invloed zijn op de uitvoergegevens, kunt u de optie Resultaten in cache gebruiken selecteren.

De module controleert of het experiment eerder is uitgevoerd met dezelfde gegevens en dezelfde opties. Als er een eerdere run wordt gevonden, wordt de schrijfbewerking niet herhaald.

Kan ik gegevens opslaan in een account in een andere geografische regio?

Ja, u kunt gegevens schrijven naar accounts in verschillende regio's. Als het opslagaccount zich echter in een andere regio dan het rekenpunt dat wordt gebruikt voor het machine learning experiment, kan de toegang tot gegevens langzamer zijn. Er worden ook kosten in rekening gebracht voor het in- en uit te gaan van gegevens in het abonnement.

Moduleparameters

Algemene opties

Name Bereik Type Standaard Beschrijving
Gegevensbron Lijst Gegevensbron of sink Azure Blob Storage De bestemming kan een bestand zijn in Azure BLOB Storage, een Azure-tabel, een tabel of weergave in een Azure SQL Database of een Hive-tabel.
Resultaten in cache gebruiken TRUE/FALSE Booleaans FALSE Module wordt alleen uitgevoerd als er geen geldige cache bestaat; gebruik anders gegevens uit eerdere uitvoering in de cache.
Geef het verificatietype op SAS/account AuthenticationType Account Geeft aan of SAS- of accountreferenties moeten worden gebruikt voor toegangsautorisatie

Openbaar of SAS: opties voor openbare opslag

Name Bereik Type Standaard Beschrijving
SAS-URI voor blob alle Tekenreeks geen De SAS-URI van de blob waar naar moet worden geschreven (vereist)
Bestandsindeling voor SAS-bestand ARFF

CSV

TSV
LoaderUtils.FileTypes CSV Geeft aan of het bestand CSV, TSV of ARFF is. (vereist)
SAS-headerrij schrijven TRUE/FALSE Booleaans FALSE Geeft aan of kolomkoppen naar het bestand moeten worden geschreven

Account - opties voor privéopslag

Name Bereik Type Standaard Beschrijving
Azure-accountnaam alle Tekenreeks geen Naam van Azure-gebruikersaccount
Azure-accountsleutel alle SecureString geen Azure-opslagsleutel
Pad naar blob, te beginnen met container alle Tekenreeks geen Naam van het blobbestand, beginnend met de containernaam
Azure Blob Storage schrijfmodus Lijst: Fout, Overschrijven enum:BlobFileWriteMode Fout De methode kiezen voor het schrijven van blob-bestanden
Bestandsindeling voor blobbestand ARFF

CSV

TSV
LoaderUtils.FileTypes CSV Geeft aan of het blobbestand CSV, TSV of ARFF is
Rij van blobheader schrijven TRUE/FALSE Booleaans FALSE Geeft aan of het blobbestand een headerrij moet hebben

Uitzonderingen

Uitzondering Description
Fout 0027 Er treedt een uitzondering op wanneer twee objecten dezelfde grootte moeten hebben, maar dat niet zijn.
Fout 0003 Een uitzondering treedt op als een of meer invoer null of leeg zijn.
Fout 0029 Er treedt een uitzondering op wanneer een ongeldige URI wordt doorgegeven.
Fout 0030 Er treedt een uitzondering op wanneer het niet mogelijk is om een bestand te downloaden.
Fout 0002 Er treedt een uitzondering op als een of meer parameters niet kunnen worden geparseerd of geconverteerd van het opgegeven type naar het type dat is vereist door de doelmethode.
Fout 0009 Er treedt een uitzondering op als de naam van het Azure-opslagaccount of de containernaam onjuist is opgegeven.
Fout 0048 Er treedt een uitzondering op wanneer het niet mogelijk is om een bestand te openen.
Fout 0046 Er treedt een uitzondering op wanneer het niet mogelijk is om een map te maken op het opgegeven pad.
Fout 0049 Er treedt een uitzondering op wanneer het niet mogelijk is om een bestand te parseren.

Zie Foutcodes voor een lijst met fouten die specifiek zijn Machine Learning voor Studio-modules (klassiek).

Zie Foutcodes voor een lijst Machine Learning REST API API-uitzonderingen.

Zie ook

Gegevens importeren
Gegevens exporteren
Exporteren naar Azure SQL Database
Exporteren naar Hive-query
Exporteren naar Azure Table