Delen via


Converteren naar gegevensset

Belangrijk

De ondersteuning voor Azure Machine Learning-studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden om vóór die datum over te stappen naar Azure Machine Learning.

Vanaf 1 december 2021 kunt u geen nieuwe resources voor Azure Machine Learning-studio (klassiek) meer maken. Tot en met 31 augustus 2024 kunt u de bestaande resources van Azure Machine Learning-studio (klassiek) blijven gebruiken.

De documentatie van ML-studio (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet meer bijgewerkt.

Converteert gegevensinvoer naar de interne gegevenssetindeling die wordt gebruikt door Microsoft Machine Learning

Categorie: Conversies van gegevensindelingen

Notitie

Van toepassing op: Machine Learning Studio (klassiek)

Vergelijkbare modules voor slepen en neerzetten zijn beschikbaar in Azure Machine Learning designer.

Moduleoverzicht

In dit artikel wordt beschreven hoe u de module Converteren naar gegevensset in Machine Learning Studio (klassiek) gebruikt om gegevens die u nodig hebt voor een experiment te converteren naar de interne indeling die door Studio (klassiek) wordt gebruikt.

Conversie is in de meeste gevallen niet vereist, omdat Machine Learning impliciet converteert naar de oorspronkelijke gegevenssetindeling wanneer een bewerking op de gegevens wordt uitgevoerd.

Het wordt echter aanbevolen om gegevens op te slaan in de indeling van de gegevensset als u een vorm van normalisatie of opsschooning hebt uitgevoerd op een set gegevens en u er zeker van wilt zijn dat de wijzigingen worden gebruikt in verdere experimenten.

Notitie

Met Converteren naar gegevensset wordt alleen de indeling van de gegevens gewijzigd en wordt er geen nieuwe kopie van de gegevens in de werkruimte op slaan. Als u de gegevensset wilt opslaan, dubbelklikt u op de uitvoerpoort, selecteert u Opslaan als gegevensset en typt u een nieuwe naam.

Converteren naar gegevensset gebruiken

U wordt aangeraden de module Metagegevens bewerken te gebruiken om de gegevensset voor te bereiden voordat u Converteren naar gegevensset gebruikt. U kunt kolomnamen toevoegen of wijzigen, gegevenstypen aanpassen, enzovoort.

  1. Voeg de module Converteren naar gegevensset toe aan uw experiment. U vindt deze module in de categorie Conversies van gegevensindelingen in Machine Learning Studio (klassiek).

  2. Verbinding maken aan elke module die een gegevensset als uitvoer heeft.

    Zolang de gegevens in tabelvorm zijn, kunt u deze converteren naar een gegevensset. Dit omvat gegevens die zijn geladen met importgegevens, gegevens die zijn gemaakt met behulp van Gegevens handmatig invoeren, gegevens die zijn gegenereerd door code in aangepaste modules, gegevenssets die zijn getransformeerd met behulp van Transformatie toepassen of gegevenssets die zijn gegenereerd of gewijzigd met behulp van Apply SQL Transformation.

  3. Geef in de vervolgkeuzelijst Actie aan of u de gegevens wilt opschonen voordat u de gegevensset opneemt:

    • Geen: gebruik de gegevens zoals ze zijn.

    • SetMissingValue: geef een tijdelijke aanduiding op die wordt ingevoegd in de gegevensset, waar een ontbrekende waarde is. De standaard tijdelijke aanduiding is het vraagteken (?), maar u kunt de optie Aangepaste ontbrekende waarde gebruiken om een andere waarde te typen.

    • ReplaceValues: gebruik deze optie om één exacte waarde op te geven die moet worden vervangen door een andere exacte waarde. Als uw gegevens bijvoorbeeld de obs tekenreeks bevatten die wordt gebruikt als tijdelijke aanduiding voor ontbrekende waarden, kunt u een aangepaste vervangingsbewerking opgeven met behulp van deze opties:

      1. Stel Vervangen in op Aangepast

      2. Bij Aangepaste waarde typt u de waarde die u wilt zoeken. In dit geval typt u obs.

      3. Bij Nieuwe waarde typt u de nieuwe waarde om de oorspronkelijke tekenreeks door te vervangen. In dit geval kunt u typen ?

    Houd er rekening mee dat de bewerking ReplaceValues alleen van toepassing is op exacte overeenkomsten. Deze tekenreeksen worden bijvoorbeeld niet beïnvloed: obs., obsolete.

    • SparseOutput: geeft aan dat de gegevensset sparse is. Door een sparse gegevensvector te maken, kunt u ervoor zorgen dat ontbrekende waarden geen invloed hebben op een verspreide gegevensdistributie. Nadat u deze optie hebt gekozen, moet u aangeven hoe ontbrekende waarden en nulwaarden moeten worden verwerkt.

    Als u een andere waarde dan nul wilt verwijderen, klikt u op de optie Verwijderen en typt u één waarde die u wilt verwijderen. U kunt ontbrekende waarden verwijderen of een aangepaste waarde instellen die u uit de vector wilt verwijderen. Alleen exacte overeenkomsten worden verwijderd. Als u bijvoorbeeld typt x in het tekstvak Waarde verwijderen, wordt de xx rij niet beïnvloed.

    De optie Nullen verwijderen is standaard ingesteld op True, wat betekent dat alle nulwaarden worden verwijderd wanneer de sparse kolom wordt gemaakt.

  4. Voer het experiment uit of klik met de rechtermuisknop op de module Converteren naar gegevensset en selecteer Uitvoeren geselecteerd.

Resultaten

  • Als u de resulterende gegevensset met een nieuwe naam wilt opslaan, klikt u met de rechtermuisknop op de uitvoer van Converteren naar gegevensset en selecteert u Opslaan als gegevensset.

Voorbeelden

U ziet voorbeelden van hoe de module Converteren naar gegevensset wordt gebruikt in de Azure AI Gallery:

  • CRM-voorbeeld: leest uit een gedeelde gegevensset en slaat een kopie van de gegevensset op in de lokale werkruimte.

  • Voorbeeld van vluchtvertraging: slaat een gegevensset op die is opgeschoond door ontbrekende waarden te vervangen, zodat u deze kunt gebruiken voor toekomstige experimenten.

Technische opmerkingen

Deze sectie bevat implementatiedetails, tips en antwoorden op veelgestelde vragen.

  • Elke module die een gegevensset als invoer gebruikt, kan ook gegevens in de CSV-, TSV- of ARFF-indeling nemen. Voordat modulecode wordt uitgevoerd, wordt de invoer voorverwerkt. Dit komt overeen met het uitvoeren van de module Converteren naar gegevensset voor de invoer.

  • U kunt de SVMLight-indeling niet converteren naar een gegevensset.

  • Wanneer u een aangepaste vervangingsbewerking opgeeft, is de zoek- en vervangbewerking van toepassing op volledige waarden; gedeeltelijke overeenkomsten zijn niet toegestaan. U kunt bijvoorbeeld een 3 vervangen door een -1 of door 33, maar u kunt een 3 niet vervangen in een getal van twee cijfers, zoals 35.

  • Voor aangepaste vervangingsbewerkingen mislukt de vervanging op de stille manier als u als vervanging een teken gebruikt dat niet voldoet aan het huidige gegevenstype van de kolom.

  • Als u gegevens wilt opslaan die gebruikmaken van numerieke gegevens die verspreid zijn en ontbrekende waarden hebben, ondersteunt Studio (klassiek) intern sparse matrices met behulp van een SparseVector, een klasse in de Math.NET numerieke bibliotheek. Bereid uw gegevens voor die gebruikmaken van nullen en ontbrekende waarden, en gebruik vervolgens Converteren naar gegevensset met de argumenten SparseOutput en Remove Zeros = TRUE.

Verwachte invoer

Naam Type Description
Gegevensset Gegevenstabel Invoerset

Moduleparameters

Name Bereik Type Standaard Beschrijving
Actie Lijst Actiemethode Geen Actie die moet worden toegepast op de invoerset

Uitvoer

Naam Type Description
Gegevensset met resultaten Gegevenstabel Uitvoerset

Zie ook

Conversies van gegevensindelingen
Lijst met A-Z-modules