Dela via


Konvertera till datamängd

Den här artikeln beskriver hur du använder komponenten Konvertera till datauppsättning i Azure Mašinsko učenje designer för att konvertera data för en pipeline till designerns interna format.

Konvertering krävs inte i de flesta fall. Azure Mašinsko učenje konverterar implicit data till sitt interna datauppsättningsformat när en åtgärd utförs på data.

Vi rekommenderar att du sparar data i datamängdsformatet om du har utfört någon form av normalisering eller rensning på en uppsättning data, och du vill se till att ändringarna används i andra pipelines.

Kommentar

Konvertera till Datauppsättning ändrar endast dataformatet. Den sparar inte en ny kopia av data på arbetsytan. Om du vill spara datauppsättningen dubbelklickar du på utdataporten, väljer Spara som datauppsättning och anger ett nytt namn.

Så här använder du Konvertera till datauppsättning

Vi rekommenderar att du använder komponenten Redigera metadata för att förbereda datauppsättningen innan du använder Konvertera till datauppsättning. Du kan lägga till eller ändra kolumnnamn, justera datatyper och göra andra ändringar efter behov.

  1. Lägg till komponenten Konvertera till datauppsättning i din pipeline. Du hittar den här komponenten i kategorin Datatransformering i designern.

  2. Anslut den till alla komponenter som matar ut en datauppsättning.

    Så länge data är tabellbaserade kan du konvertera dem till en datauppsättning. Detta omfattar data som läses in via Importera data, data som skapats via Ange data manuellt eller datauppsättningar som transformeras via Tillämpa transformering.

  3. I listrutan Åtgärd anger du om du vill rensa data innan du sparar datamängden:

    • Ingen: Använd data som de är.

    • SetMissingValue: Ange ett specifikt värde till ett värde som saknas i datamängden. Standardplatshållaren är frågetecknet (?), men du kan använda alternativet Anpassat värde som saknas för att ange ett annat värde. Om du till exempel anger taxa för anpassat värde som saknas ändras alla instanser av Taxi i datauppsättningen till det saknade värdet.

    • ReplaceValues: Använd det här alternativet för att ange ett enda exakt värde som ska ersättas med andra exakta värden. Du kan ersätta saknade värden eller anpassade värden genom att ange metoden Ersätt :

      • Saknas: Välj det här alternativet om du vill ersätta saknade värden i indatauppsättningen. För Nytt värde anger du det värde som de saknade värdena ska ersättas med.
      • Anpassad: Välj det här alternativet om du vill ersätta anpassade värden i indatauppsättningen. För Anpassat värde anger du det värde som du vill hitta. Om dina data till exempel innehåller strängen obs som används som platshållare för saknade värden anger obsdu . För Nytt värde anger du det nya värdet som den ursprungliga strängen ska ersättas med.

    Observera att åtgärden ReplaceValues endast gäller för exakta matchningar. Dessa strängar skulle till exempel inte påverkas: obs., obsolete.

  4. Skicka pipelinen.

Resultat

  • Om du vill spara den resulterande datamängden med ett nytt namn väljer du på ikonen Registrera datauppsättning under fliken Utdata i komponentens högra panel.

Tekniska anteckningar

  • Alla komponenter som tar en datamängd som indata kan också ta data i CSV-filen eller TSV-filen. Innan någon komponentkod körs förbearbetas indata. Förbearbetning motsvarar körningen av komponenten Konvertera till datauppsättning på indata.

  • Du kan inte konvertera från SVMLight-formatet till en datauppsättning.

  • När du anger en anpassad ersättningsåtgärd gäller åtgärden search-and-replace för fullständiga värden. Partiella matchningar tillåts inte. Du kan till exempel ersätta en 3 med -1 eller med 33, men du kan inte ersätta en 3 i ett tvåsiffrigt tal, till exempel 35.

  • För anpassade ersättningsåtgärder misslyckas ersättningen tyst om du använder ett ersättningstecken som inte överensstämmer med kolumnens aktuella datatyp.

Nästa steg

Se den uppsättning komponenter som är tillgängliga för Azure Mašinsko učenje.