Converteren naar CSV
Belangrijk
De ondersteuning voor Azure Machine Learning-studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden om vóór die datum over te stappen naar Azure Machine Learning.
Vanaf 1 december 2021 kunt u geen nieuwe resources voor Azure Machine Learning-studio (klassiek) meer maken. Tot en met 31 augustus 2024 kunt u de bestaande resources van Azure Machine Learning-studio (klassiek) blijven gebruiken.
- Zie informatie over het verplaatsen van machine learning-projecten van ML Studio (klassiek) naar Azure Machine Learning.
- Meer informatie over Azure Machine Learning.
De documentatie van ML-studio (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet meer bijgewerkt.
Converteert gegevensinvoer naar een door komma's gescheiden waardenindeling
Categorie: Conversies van gegevensindeling
Notitie
Van toepassing op: alleen Machine Learning Studio (klassiek)
Vergelijkbare modules voor slepen en neerzetten zijn beschikbaar in Azure Machine Learning designer.
Moduleoverzicht
In dit artikel wordt beschreven hoe u de module Converteren naar CSV in Machine Learning Studio (klassiek) gebruikt om een gegevensset van Azure ML te converteren naar een CSV-indeling die kan worden gedownload, geëxporteerd of gedeeld met R- of Python-scriptmodules.
Meer informatie over de CSV-indeling
De CSV-indeling, die staat voor 'door komma's gescheiden waarden', is een bestandsindeling die wordt gebruikt door veel externe machine learning-hulpprogramma's. Hoewel de systeemeigen indeling van de gegevensset die wordt gebruikt door Machine Learning is gebaseerd op de .NET-gegevenstabel en dus kan worden gelezen door .NET-bibliotheken, is CSV een algemene uitwisselingsindeling bij het werken met opensourcetalen zoals R of Python.
Zelfs als u het grootste deel van uw werk in Machine Learning Studio (klassiek) uitvoert, is het soms handig om uw gegevensset te converteren naar CSV voor gebruik in externe hulpprogramma's. Bijvoorbeeld:
- Download het CSV-bestand om het te openen met Excel of importeer het in een relationele database.
- Sla het CSV-bestand op in de cloudopslag en maak er verbinding mee vanuit Power BI om visualisaties te maken.
- Gebruik de CSV-indeling om gegevens voor te bereiden voor gebruik in R en Python. Klik met de rechtermuisknop op de uitvoer van de module om de code te genereren die nodig is om rechtstreeks vanuit Python of een Jupyter-notebook toegang te krijgen tot de gegevens.
Wanneer u een gegevensset converteert naar CSV, wordt het bestand opgeslagen in uw Azure ML-werkruimte. U kunt een Azure Storage-hulpprogramma gebruiken om het bestand rechtstreeks te openen en te gebruiken, of u kunt met de rechtermuisknop op de module-uitvoer klikken en het CSV-bestand naar uw computer downloaden of gebruiken in R- of Python-code.
Converteren naar CSV configureren
Voeg de module Converteren naar CSV toe aan uw experiment. U vindt deze module in de groep Conversies van gegevensindelingen in Studio (klassiek).
Verbinding maken deze naar een module die een gegevensset uitvoert.
Voer het experiment uit of klik op de module Converteren naar CSV en klik op Uitvoeren geselecteerd.
Resultaten
Dubbelklik op de uitvoer van Converteren naar CSV en selecteer een van deze opties.
Download: Hiermee opent u onmiddellijk een kopie van de gegevens in CSV-indeling die u kunt opslaan in een lokale map. Als u geen map opgeeft, wordt er een standaardbestandsnaam toegepast en wordt het CSV-bestand opgeslagen in de lokale bibliotheek Downloads .
Als u Gegevensset downloaden selecteert, moet u aangeven of u de gegevensset wilt openen of deze wilt opslaan in een lokaal bestand.
Als u Openen selecteert, wordt de gegevensset geladen met behulp van de toepassing die standaard is gekoppeld aan .CSV bestanden, bijvoorbeeld Microsoft Excel.
Als u De gegevensset Downloaden selecteert, wordt het bestand standaard opgeslagen met de naam van de module plus een GUID die de werkruimte-id vertegenwoordigt. U kunt echter de optie Opslaan als selecteren tijdens het downloaden en de bestandsnaam of locatie wijzigen.
Opslaan als gegevensset: slaat het CSV-bestand weer op in de Azure ML-werkruimte als een afzonderlijke gegevensset.
Gegevenstoegangscode genereren: Azure ML genereert twee sets code voor toegang tot de gegevens, hetzij met behulp van Python of met R. Kopieer het codefragment naar uw toepassing om toegang te krijgen tot de gegevens.
Openen in een nieuw notebook: er wordt een nieuw Jupyter-notebook voor u gemaakt en code ingevoegd voor het lezen van de gegevens uit uw werkruimte, met behulp van de taal van uw keuze: Python 2, Python 3 of R met Microsoft R Open.
Als u bijvoorbeeld de R-optie kiest, wordt voorbeeld-R-code opgegeven waarmee het CSV-bestand in een gegevensframe wordt geladen en de eerste paar rijen worden weergegeven met behulp van de
head
functie.
Technische opmerkingen
Deze sectie bevat implementatiedetails, tips en antwoorden op veelgestelde vragen.
Vereisten voor de CSV-indeling
De CSV-bestandsindeling is een populaire indeling die wordt ondersteund door veel machine learning-frameworks. De notatie wordt op verschillende manieren aangeduid als 'door komma's gescheiden waarden' of 'door tekens gescheiden waarden'.
In een CSV-bestand worden tabelgegevens (getallen en tekst) opgeslagen in tekst zonder opmaak. Een CSV-bestand bestaat uit een willekeurig aantal records, gescheiden door regeleinden van een bepaald type. Elke record bestaat uit velden, gescheiden door een letterlijke komma. In sommige regio's kan het scheidingsteken een puntkomma zijn.
Normaal gesproken hebben alle records een identiek aantal velden en ontbrekende waarden worden weergegeven als null-waarden of lege tekenreeksen.
Tip
U kunt eenvoudig gegevens uit Excel, Access of een relationele database exporteren naar CSV-bestanden, zodat u deze kunt gebruiken in Machine Learning. Hoewel bestandsnamen doorgaans de .CSV-extensie hebben, hoeft Machine Learning niet dat deze bestandsnaamextensie aanwezig is als u de gegevens als CSV wilt importeren. U kunt XLSX-, TXT- en andere bestanden als CSV importeren. De velden in het bestand moeten echter zijn opgemaakt zoals beschreven in de vorige sectie en het bestand moet de UTF-8-codering gebruiken.
Veelvoorkomende vragen en problemen
In deze sectie worden enkele bekende problemen, veelgestelde vragen en tijdelijke oplossingen beschreven die specifiek zijn voor de module Converteren naar CSV .
Kopteksten moeten één rij zijn
De CSV-bestandsindeling die wordt gebruikt in Machine Learning ondersteunt één veldnamenrij. U kunt geen kopteksten met meerdere regels invoegen.
Aangepaste scheidingstekens die worden ondersteund bij importeren, maar niet exporteren
De module Converteren naar CSV biedt geen ondersteuning voor het genereren van alternatieve kolomscheidingstekens, zoals de puntkomma (;), die vaak in Europa worden gebruikt.
Wanneer u echter gegevens uit CSV-bestanden in externe opslag importeert, kunt u alternatieve scheidingstekens opgeven. Selecteer in de module Gegevens importeren de OPTIE CSV met coderingen en kies een ondersteunde codering.
Onnauwkeurige scheiding van kolommen op tekenreeksgegevens met komma's
Het is een veelvoorkomend probleem bij het verwerken van tekst dat bijna elk teken dat kan worden opgegeven als kolomscheidingsteken (tabbladen, spaties, komma's, enzovoort) ook willekeurig in tekstvelden kan worden gevonden. Als u tekst uit CSV importeert, moet u altijd voorzichtig zijn om te voorkomen dat u tekst over onnodige nieuwe kolommen scheidt.
Wanneer u probeert een kolom met tekenreeksgegevens met komma's te exporteren, kunnen er ook problemen optreden. Machine Learning biedt geen ondersteuning voor speciale verwerking of speciale vertaling van dergelijke gegevens, zoals het insluiten van tekenreeksen tussen aanhalingstekens. U kunt ook geen escapetekens voor een komma gebruiken om ervoor te zorgen dat komma's worden verwerkt als een letterlijk teken.
Daarom worden nieuwe velden gemaakt in het uitvoerbestand voor elke komma die in het tekenreeksveld wordt aangetroffen. Er zijn verschillende tijdelijke oplossingen om dit probleem te voorkomen:
Gebruik de module Tekstvoorverwerking om leestekens uit tekenreeksvelden te verwijderen.
Gebruik aangepast R-script of Python-script om tekst te verwerken en ervoor te zorgen dat gegevens correct kunnen worden geëxporteerd.
UTF-8-codering vereist
De module Converteren naar CSV ondersteunt alleen UTF-8-tekencodering. Als u gegevens wilt exporteren met behulp van een andere codering, kunt u proberen het Execute R-script te gebruiken of Python-scriptmodules uit te voeren om aangepaste uitvoer te genereren.
De gegevensset heeft geen kolomnamen
Als de gegevensset die u exporteert naar een CSV-bestand geen kolomnamen heeft, raden we u aan metagegevens bewerken te gebruiken om kolomnamen toe te voegen voordat u deze converteert. U kunt geen kolomnamen toevoegen als onderdeel van het conversie- of exportproces.
SYLK: Bestandsindeling is ongeldig
Als de eerste kolom van de gegevensset die u converteert naar CSV de naam-id heeft, wordt mogelijk de volgende fout weergegeven wanneer u het bestand probeert te openen in Excel:
"SYLK: Bestandsindeling is ongeldig."
Als u deze fout wilt voorkomen, moet u de naam van de kolom wijzigen.
Ik heb hulp nodig bij het importeren uit CSV
Gebruik de module Exporteren naar CSV niet voor het importeren. Gebruik in plaats daarvan de module Gegevens importeren .
Zie de volgende bronnen voor algemene informatie over het importeren uit CSV:
- Uw trainingsgegevens importeren in Machine Learning Studio (klassiek) uit verschillende gegevensbronnen
- AzureML Experimenten en gegevensinteractie: demonstreert verschillende gegevensbronnen en hoe u ermee kunt werken in Studio (klassiek).
Verwachte invoer
Naam | Type | Description |
---|---|---|
Gegevensset | Gegevenstabel | Invoergegevensset |
Uitvoer
Naam | Type | Description |
---|---|---|
Resultatengegevensset | GenericCsv | Uitvoergegevensset |