Konvertera till CSV
Viktigt
Stödet för Machine Learning Studio (klassisk) upphör den 31 augusti 2024. Vi rekommenderar att du byter till Azure Machine Learning innan dess.
Från och med den 1 december 2021 kan du inte längre skapa nya Machine Learning Studio-resurser (klassisk). Du kan fortsätta att använda befintliga Machine Learning Studio-resurser (klassisk) till och med den 31 augusti 2024.
- Se information om hur du flyttar maskininlärningsprojekt från ML Studio (klassisk) till Azure Machine Learning.
- Läs mer om Azure Machine Learning.
Dokumentationen om ML Studio (klassisk) håller på att dras tillbaka och kanske inte uppdateras i framtiden.
Konverterar indata till ett format för kommaavgränsade värden
Kategori: Dataformatskonverteringar
Anteckning
Gäller endast för: Machine Learning Studio (klassisk)
Liknande dra och släpp-moduler finns i Azure Machine Learning designer.
Modulöversikt
I den här artikeln beskrivs hur du använder modulen Konvertera till CSV i Machine Learning Studio (klassisk) för att konvertera en datauppsättning från Azure ML till ett CSV-format som kan laddas ned, exporteras eller delas med R- eller Python-skriptmoduler.
Mer om CSV-format
CSV-formatet, som står för "kommaavgränsade värden", är ett filformat som används av många externa maskininlärningsverktyg. Även om det interna datauppsättningsformatet som används av Machine Learning baseras på .NET-datatabellen och därför kan läsas av .NET-bibliotek, är CSV ett vanligt utbytesformat när du arbetar med språk med öppen källkod, till exempel R eller Python.
Även om du gör det mesta av ditt arbete i Machine Learning Studio (klassisk) finns det tillfällen då det kan vara praktiskt att konvertera datauppsättningen till CSV för användning i externa verktyg. Ett exempel:
- Ladda ned CSV-filen för att öppna den med Excel eller importera den till en relationsdatabas.
- Spara CSV-filen till molnlagringen och anslut den från Power BI för att skapa visualiseringar.
- Använd CSV-formatet för att förbereda data för användning i R och Python. Högerklicka bara på utdata från modulen för att generera den kod som behövs för att komma åt data direkt från Python eller en Jupyter Notebook.
När du konverterar en datauppsättning till CSV sparas filen i din Azure ML-arbetsyta. Du kan använda ett Azure Storage-verktyg för att öppna och använda filen direkt, eller så kan du högerklicka på modulutdata och ladda ned CSV-filen till datorn eller använda den i R- eller Python-kod.
Så här konfigurerar du Konvertera till CSV
Lägg till modulen Konvertera till CSV i experimentet. Du hittar den här modulen i gruppen Konvertering av dataformat i Studio (klassisk).
Anslut den till alla moduler som matar ut en datauppsättning.
Kör experimentet eller klicka på modulen Konvertera till CSV och klicka på Kör valt.
Resultat
Dubbelklicka på utdata för Konvertera till CSV och välj något av dessa alternativ.
Ladda ned: Öppnar omedelbart en kopia av data i CSV-format som du kan spara i en lokal mapp. Om du inte anger en mapp används ett standardfilnamn och CSV-filen sparas i det lokala biblioteket för nedladdningar .
Om du väljer Ladda ned datauppsättning måste du ange om du vill öppna datauppsättningen eller spara den i en lokal fil.
Om du väljer Öppna läses datauppsättningen in med det program som är associerat som standard med .CSV filer: till exempel Microsoft Excel.
Om du väljer Ladda ned datauppsättning sparas filen som standard med namnet på modulen plus ett GUID som representerar arbetsytans ID. Du kan dock välja alternativet Spara som under nedladdningen och ändra filnamnet eller platsen.
Spara som datauppsättning: Sparar CSV-filen tillbaka till Azure ML-arbetsytan som en separat datauppsättning.
Generera dataåtkomstkod: Azure ML genererar två uppsättningar kod som du kan använda för att komma åt data, antingen med hjälp av Python eller med hjälp av R. Om du vill komma åt data kopierar du kodfragmentet till ditt program.
Öppna i en ny notebook-fil: En ny Jupyter-notebook-fil skapas åt dig och kod infogas för att läsa data från din arbetsyta med valfritt språk: Python 2, Python 3 eller R med Microsoft R Open.
Om du till exempel väljer R-alternativet tillhandahålls exempel-R-kod som läser in CSV-filen i en dataram och visar de första raderna med hjälp av
head
funktionen .
Tekniska anteckningar
Det här avsnittet innehåller implementeringsinformation, tips och svar på vanliga frågor.
Krav för CSV-format
CSV-filformatet är ett populärt format som stöds av många maskininlärningsramverk. Formatet kallas för "kommaavgränsade värden" eller "teckenavgränsade värden".
En CSV-fil lagrar tabelldata (siffror och text) i oformaterad text. En CSV-fil består av valfritt antal poster, avgränsade med radbrytningar av något slag. Varje post består av fält, avgränsade med ett literal kommatecken. I vissa regioner kan avgränsaren vara ett semikolon.
Normalt har alla poster ett identiskt antal fält och saknade värden representeras som null-värden eller tomma strängar.
Tips
Du kan enkelt exportera data från Excel, Access eller en relationsdatabas till CSV-filer som ska användas i Machine Learning. Även om filnamn vanligtvis har filnamnstillägget .CSV kräver Machine Learning inte att filnamnstillägget finns om du vill importera data som CSV. Du kan importera XLSX-, TXT- och andra filer som CSV. Fälten i filen måste dock formateras enligt beskrivningen i föregående avsnitt och filen måste använda UTF-8-kodningen.
Vanliga frågor och problem
I det här avsnittet beskrivs några kända problem, vanliga frågor och lösningar som är specifika för modulen Konvertera till CSV .
Rubriker måste vara enskilda rader
CSV-filformatet som används i Machine Learning stöder en enda rubrikrad. Det går inte att infoga flerradsrubriker.
Anpassade avgränsare som stöds vid import men inte export
Modulen Konvertera till CSV stöder inte generering av alternativa kolumnavgränsare, till exempel semikolon (;), som ofta används i Europa.
Men när du importerar data från CSV-filer i extern lagring kan du ange alternativa avgränsare. I modulen Importera data väljer du alternativet CSV med kodningar och väljer en kodning som stöds.
Felaktig kolumnavgränsning för strängdata som innehåller kommatecken
Det är ett vanligt problem vid textbearbetning att nästan alla tecken som kan anges som kolumnavgränsare (flikar, blanksteg, kommatecken osv.) också kan hittas slumpmässigt i textfält. Import av text från CSV kräver alltid försiktighet för att undvika att separera text över onödiga nya kolumner.
När du försöker exportera en kolumn med strängdata som innehåller kommatecken kan du även stöta på problem. Machine Learning har inte stöd för särskild hantering eller särskild översättning av sådana data, till exempel att omsluta strängar inom citattecken. Du kan inte heller använda escape-tecken före ett kommatecken för att säkerställa att kommatecken hanteras som ett literaltecken.
Därför skapas nya fält i utdatafilen för varje kommatecken som påträffas i strängfältet. Det finns flera lösningar för att undvika det här problemet:
Använd modulen Förbearbeta text för att ta bort skiljetecken från strängfält.
Använd anpassat R-skript eller Python-skript för att bearbeta text och se till att data kan exporteras korrekt.
UTF-8-kodning krävs
Modulen Konvertera till CSV stöder endast UTF-8-teckenkodning. Om du behöver exportera data med en annan kodning kan du prova att använda modulerna Execute R Script (Kör R-skript ) eller Execute Python Script (Kör Python-skript ) för att generera anpassade utdata.
Datauppsättningen har inte kolumnnamn
Om den datauppsättning som du exporterar till en CSV-fil inte har kolumnnamn rekommenderar vi att du använder Redigera metadata för att lägga till kolumnnamn innan du konverterar den. Du kan inte lägga till kolumnnamn som en del av konverterings- eller exportprocessen.
SYLK: Filformatet är inte giltigt
Om den första kolumnen i datauppsättningen som du konverterar till CSV har namn-ID:t kan följande fel visas när du försöker öppna filen i Excel:
"SYLK: Filformatet är inte giltigt."
För att undvika det här felet måste du byta namn på kolumnen.
Jag behöver hjälp med att importera från CSV
Använd inte modulen Exportera till CSV för import. Använd i stället modulen Importera data .
Allmän information om hur du importerar från CSV finns i följande resurser:
- Importera dina träningsdata till Machine Learning Studio (klassisk) från olika datakällor
- AzureML-experiment och datainteraktion: Visar olika datakällor och hur du arbetar med dem i Studio (klassisk).
Förväntade indata
Namn | Typ | Beskrivning |
---|---|---|
Datamängd | Datatabell | Indatauppsättning |
Utdata
Namn | Typ | Beskrivning |
---|---|---|
Resultatdatauppsättning | GenericCsv | Utdatauppsättning |