Het onderdeel Gegevens importeren

In dit artikel wordt een onderdeel in de Azure Machine Learning-ontwerpfunctie beschreven.

Gebruik dit onderdeel om gegevens te laden in een machine learning-pijplijn vanuit bestaande cloudgegevensservices.

Notitie

Alle functionaliteit van dit onderdeel kan worden uitgevoerd door het gegevensarchief en de gegevenssets op de landingspagina van de werkruimte. We raden u aan het gegevensarchief en de gegevensset te gebruiken die aanvullende functies bevatten, zoals gegevensbewaking. Zie het artikel Toegang tot gegevens en Gegevenssets registreren voor meer informatie. Nadat u een gegevensset hebt geregistreerd, kunt u deze vinden in de categorie Gegevenssets ->Mijn gegevenssets in de ontwerpinterface. Dit onderdeel is gereserveerd voor Gebruikers van Studio (klassiek) voor een vertrouwde ervaring.

Het onderdeel Gegevens importeren ondersteunt het lezen van gegevens uit de volgende bronnen:

  • URL via HTTP
  • Azure-cloudopslag via gegevensarchieven)
    • Azure Blob Container
    • Azure-bestandsshare
    • Azure Data Lake
    • Azure Data Lake Gen2
    • Azure SQL Database
    • Azure PostgreSQL

Voordat u cloudopslag gebruikt, moet u eerst een gegevensarchief registreren in uw Azure Machine Learning-werkruimte. Zie Toegang tot gegevens voor meer informatie.

Nadat u de gewenste gegevens hebt gedefinieerd en verbinding hebt gemaakt met de bron, wordt bij Gegevens importeren het gegevenstype van elke kolom afgeleid op basis van de waarden die deze bevat en worden de gegevens in uw ontwerppijplijn geladen. De uitvoer van Import Data is een gegevensset die kan worden gebruikt met elke ontwerppijplijn.

Als de brongegevens worden gewijzigd, kunt u de gegevensset vernieuwen en nieuwe gegevens toevoegen door Gegevens importeren opnieuw uit te voeren.

Waarschuwing

Als uw werkruimte zich in een virtueel netwerk bevindt, moet u uw gegevensarchieven configureren om de functies voor gegevensvisualisatie van de ontwerper te gebruiken. Zie Use Azure Machine Learning-studio in an Azure virtual network (Azure Machine Learning-studio gebruiken in een virtueel Azure-netwerk) voor meer informatie over het gebruik van gegevensarchieven en gegevenssets in een virtueel netwerk.

Gegevens importeren configureren

  1. Voeg het onderdeel Gegevens importeren toe aan uw pijplijn. U vindt dit onderdeel in de categorie Gegevensinvoer en -uitvoer in de ontwerpfunctie.

  2. Selecteer het onderdeel om het rechterdeelvenster te openen.

  3. Selecteer Gegevensbron en kies het type gegevensbron. Dit kan HTTP of gegevensarchief zijn.

    Als u kiest voor gegevensarchief, kunt u bestaande gegevensarchieven selecteren die al zijn geregistreerd bij uw Azure Machine Learning-werkruimte of een nieuw gegevensarchief maken. Definieer vervolgens het pad van de gegevens die moeten worden geïmporteerd in het gegevensarchief. U kunt eenvoudig door het pad bladeren door Bladeren in pad te selecteren.

    Schermopname van de koppeling Bladeren in pad waarmee het dialoogvenster Padselectie wordt geopend.

    Notitie

    Het onderdeel Import Data is alleen bedoeld voor tabelgegevens . Als u één keer meerdere gegevensbestanden in tabelvorm wilt importeren, zijn de volgende voorwaarden vereist, anders treden er fouten op:

    1. Als u alle gegevensbestanden in de map wilt opnemen, moet u invoeren folder_name/** voor Pad.
    2. Alle gegevensbestanden moeten worden gecodeerd in unicode-8.
    3. Alle gegevensbestanden moeten dezelfde kolomnummers en kolomnamen hebben.
    4. Het resultaat van het importeren van meerdere gegevensbestanden is het samenvoegen van alle rijen uit meerdere bestanden in volgorde.
  4. Selecteer het voorbeeldschema om de kolommen te filteren die u wilt opnemen. U kunt ook geavanceerde instellingen, zoals Scheidingsteken, definiëren in Parseeropties.

    Schermopname van het schemavoorbeeld met kolom 3, 4, 5 en 6 geselecteerd.

  5. Het selectievakje Uitvoer opnieuw genereren bepaalt of het onderdeel moet worden uitgevoerd om uitvoer opnieuw te genereren tijdens de uitvoering.

    Het is standaard niet geselecteerd, wat betekent dat als het onderdeel eerder met dezelfde parameters is uitgevoerd, het systeem de uitvoer van de laatste uitvoering opnieuw gebruikt om de uitvoeringstijd te verkorten.

    Als dit is geselecteerd, voert het systeem het onderdeel opnieuw uit om de uitvoer opnieuw te genereren. Selecteer deze optie wanneer onderliggende gegevens in de opslag worden bijgewerkt, zodat u de meest recente gegevens kunt ophalen.

  6. Verzend de pijplijn.

    Wanneer Gegevens importeren de gegevens in de ontwerpfunctie laadt, wordt het gegevenstype van elke kolom afgeleid op basis van de waarden die deze bevat, numeriek of categorisch.

    Als er een header aanwezig is, wordt de header gebruikt om de kolommen van de uitvoergegevensset een naam te geven.

    Als de gegevens geen bestaande kolomkoppen bevatten, worden nieuwe kolomnamen gegenereerd met de indeling col1, col2,... , coln*.

Resultaten

Wanneer het importeren is voltooid, klikt u met de rechtermuisknop op de uitvoergegevensset en selecteert u Visualiseren om te zien of de gegevens zijn geïmporteerd.

Als u de gegevens wilt opslaan voor hergebruik in plaats van telkens wanneer de pijplijn wordt uitgevoerd een nieuwe set gegevens te importeren, selecteert u het pictogram Gegevensset registreren onder het tabblad Uitvoer en logboeken in het rechterdeelvenster van het onderdeel. Kies een naam voor de gegevensset. De opgeslagen gegevensset behoudt de gegevens op het moment van opslaan. De gegevensset wordt niet bijgewerkt wanneer de pijplijn opnieuw wordt uitgevoerd, zelfs niet als de gegevensset in de pijplijn wordt gewijzigd. Dit kan handig zijn voor het maken van momentopnamen van gegevens.

Nadat u de gegevens hebt geïmporteerd, zijn mogelijk enkele aanvullende voorbereidingen nodig voor modellering en analyse:

  • Gebruik Metagegevens bewerken om kolomnamen te wijzigen, een kolom als een ander gegevenstype te verwerken of aan te geven dat sommige kolommen labels of functies zijn.

  • Gebruik Kolommen selecteren in gegevensset om een subset kolommen te selecteren die u wilt transformeren of gebruiken in modellering. De getransformeerde of verwijderde kolommen kunnen eenvoudig opnieuw worden toegevoegd aan de oorspronkelijke gegevensset met behulp van het onderdeel Kolommen toevoegen .

  • Gebruik Partition and Sample om de gegevensset te verdelen, steekproeven uit te voeren of de bovenste n rijen op te halen.

Beperkingen

Als uw deductiepijplijn het onderdeel Gegevens importeren bevat, wordt deze vanwege een beperking tot toegang tot het gegevensarchief automatisch verwijderd wanneer deze wordt geïmplementeerd op een realtime-eindpunt.

Volgende stappen

Bekijk de set onderdelen die beschikbaar zijn voor Azure Machine Learning.