Importeren vanuit een web-URL via HTTP

Artikel
05/06/2019

Belangrijk

De ondersteuning voor Azure Machine Learning-studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden om vóór die datum over te stappen naar Azure Machine Learning.

Vanaf 1 december 2021 kunt u geen nieuwe resources voor Azure Machine Learning-studio (klassiek) meer maken. Tot en met 31 augustus 2024 kunt u de bestaande resources van Azure Machine Learning-studio (klassiek) blijven gebruiken.

Zie informatie over het verplaatsen machine learning van ML Studio (klassiek) naar Azure Machine Learning.
Meer informatie over Azure Machine Learning.

De documentatie van ML-studio (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet meer bijgewerkt.

In dit artikel wordt beschreven hoe u de module Gegevens importeren in Machine Learning Studio (klassiek) gebruikt om gegevens van een openbare webpagina te lezen voor gebruik in een machine learning experiment.

Notitie

Van toepassing op: Machine Learning Studio (klassiek)

Vergelijkbare modules voor slepen en neerzetten zijn beschikbaar in Azure Machine Learning designer.

De volgende beperkingen zijn van toepassing op gegevens die zijn gepubliceerd op een webpagina:

Gegevens moeten een van de ondersteunde indelingen hebben: CSV, TSV, ARFF of SvmLight. Andere gegevens veroorzaken fouten.
Er is geen verificatie vereist of wordt ondersteund. Gegevens moeten openbaar beschikbaar zijn.

Gegevens importeren via HTTP

Er zijn twee manieren om gegevens op te halen: gebruik de wizard om de gegevensbron in te stellen of configureer deze handmatig.

De wizard Gegevens importeren gebruiken

Voeg de module Gegevens importeren toe aan uw experiment. U vindt de module in Studio (klassiek) in de categorie Gegevensinvoer en -uitvoer.
Klik op Wizard Gegevens importeren starten en selecteer Web-URL via HTTP.
Plak de URL en selecteer een gegevensindeling.
Wanneer de configuratie is voltooid, klikt u met de rechtermuisknop op de module en selecteert u Geselecteerde uitvoeren.

Als u een bestaande gegevensverbinding wilt bewerken, start u de wizard opnieuw. De wizard laadt alle eerdere configuratiegegevens, zodat u niet opnieuw opnieuw hoeft te beginnen

Handmatig eigenschappen instellen in de module Gegevens importeren

In de volgende stappen wordt beschreven hoe u de importbron handmatig configureert.

Voeg de module Gegevens importeren toe aan uw experiment. U vindt de module in Studio (klassiek) in de categorie Gegevensinvoer en -uitvoer.
Bij Gegevensbron selecteert u Web-URL via HTTP.
Bij URL typt of plakt u de volledige URL van de pagina die de gegevens bevat die u wilt laden.

De URL moet de site-URL en het volledige pad, met bestandsnaam en extensie, bevatten naar de pagina die de gegevens bevat die moeten worden geladen.

De volgende pagina bevat bijvoorbeeld de Iris-gegevensset uit machine learning opslagplaats van de Universiteit van Californië, Irvine:

https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data
Selecteer bij Gegevensindeling een van de ondersteunde gegevensindelingen in de lijst.

U wordt aangeraden de gegevens altijd van tevoren te controleren om de indeling te bepalen. De UC Irvine-pagina gebruikt de CSV-indeling. Andere ondersteunde gegevensindelingen zijn TSV, ARFF en SvmLight.
Als de gegevens de CSV- of TSV-indeling hebben, gebruikt u de optie Rij bestand heeft koptekst om aan te geven of de brongegevens al dan niet een headerrij bevatten. De koprij wordt gebruikt om kolomnamen toe te wijzen.
Selecteer de opties Resultaten in cache gebruiken als u niet verwacht dat de gegevens veel veranderen of als u wilt voorkomen dat de gegevens telkens wanneer u het experiment uitvoeren opnieuw worden geladen.

Wanneer deze optie is geselecteerd, laadt het experiment de gegevens de eerste keer dat de module wordt uitgevoerd en gebruikt vervolgens een in de cache opgeslagen versie van de gegevensset.

Als u de gegevensset opnieuw wilt laden bij elke iteratie van de experiment-gegevensset, deselecteert u de optie Resultaten in cache gebruiken. Resultaten worden ook opnieuw geladen als er wijzigingen zijn in de parameters van Gegevens importeren.
Voer het experiment uit.

Resultaten

Wanneer u klaar bent, klikt u op de uitvoergegevensset en selecteert u Visualiseren om te zien of de gegevens zijn geïmporteerd.

Voorbeelden

Zie deze voorbeelden in de Azure AI Gallery van machine learning experimenten die gegevens van openbare websites op halen:

Voorbeeld van letterherkenning: haalt een trainingsgegevensset op uit machine learning openbare opslagplaats die wordt gehost door UC Irvine.
UCI-gegevensset downloaden: leest een gegevensset in de CSV-indeling.

Technische opmerkingen

Deze sectie bevat implementatiedetails, tips en antwoorden op veelgestelde vragen.

Veelgestelde vragen

Kan ik gegevens filteren terwijl deze uit de bron worden gelezen?

Nee. Deze optie wordt niet ondersteund met deze gegevensbron.

Nadat u de gegevens in Machine Learning Studio (klassiek) hebt gelezen, kunt u de gegevensset splitsen, steekproeven gebruiken, enzovoort om alleen de rijen te krijgen die u wilt:

Schrijf eenvoudige R-code in R-script uitvoeren om een deel van de gegevens op te halen uit rijen of kolommen.
Gebruik de module Split Data (Gegevens splitsen) met een relatieve expressie of een reguliere expressie om de persoonsgegevens te isoleren.
Als u meer gegevens hebt geladen dan nodig is, overschrijft u de gegevensset in de cache door een nieuwe gegevensset te lezen en op te slaan met dezelfde naam.

Hoe voorkom ik dat dezelfde gegevens onnodig opnieuw worden geladen

Als uw brongegevens veranderen, kunt u de gegevensset vernieuwen en nieuwe gegevens toevoegen door Gegevens importeren opnieuw uit te voeren.

Als u de bron niet telkens opnieuw wilt lezen wanneer u het experiment hebt uitgevoerd, selecteert u de optie In cache opgeslagen resultaten gebruiken op TRUE. Als deze optie is ingesteld op TRUE, controleert de module of het experiment eerder is uitgevoerd met behulp van dezelfde bron en dezelfde invoeropties. Als er een eerdere run wordt gevonden, worden de gegevens in de cache gebruikt in plaats van de gegevens opnieuw te laden uit de bron.

Waarom is er een extra rij toegevoegd aan het einde van mijn gegevensset

Als de module Gegevens importeren een rij met gegevens tegenkomt die wordt gevolgd door een lege regel of een navolgend nieuw regelteken, wordt er aan het einde van de tabel een extra rij toegevoegd. Deze nieuwe rij bevat ontbrekende waarden.

De reden voor het interpreteren van een aan het einde van een nieuwe regel als een nieuwe rij is dat Import Data niet het verschil kan bepalen tussen een werkelijke lege regel en een lege regel die wordt gemaakt door de gebruiker die op ENTER aan het einde van een bestand drukt.

Omdat sommige machine learning-algoritmen ontbrekende gegevens ondersteunen en deze regel dus als een case behandelen (die op zijn beurt van invloed kunnen zijn op de resultaten), moet u Clean Missing Data gebruiken om te controleren op ontbrekende waarden (met name rijen die volledig leeg zijn) en deze indien nodig te verwijderen.

Voordat u op lege rijen controleert, wilt u mogelijk ook de gegevensset delen met behulp van Gegevens splitsen. Hiermee worden rijen gescheiden met gedeeltelijke ontbrekende waarden, die werkelijke ontbrekende waarden in de brongegevens vertegenwoordigen. Gebruik de optie Hoofd-N-rijen selecteren om het eerste deel van de gegevensset in een afzonderlijke container van de laatste regel te lezen.

Waarom worden sommige tekens in mijn bronbestand niet correct weergegeven?

Machine Learning biedt ondersteuning voor UTF-8-codering. Als uw bronbestand een ander type codering heeft gebruikt, worden de tekens mogelijk niet correct geïmporteerd.

Moduleparameters

Name	Bereik	Type	Standaard	Beschrijving
Gegevensbron	Lijst	Gegevensbron of sink	Azure Blob Storage	De gegevensbron kan HTTP, FTP, anonieme HTTPS of FTPS zijn, een bestand in Azure BLOB Storage, een Azure-tabel, een Azure SQL Database, een on-premises SQL Server-database, een Hive-tabel of een OData-eindpunt.
URL	alle	Tekenreeks	geen	URL voor HTTP
Gegevensindeling	CSV TSV ARFF SvmLight	Gegevensindeling	CSV	Bestandstype van HTTP-bron
CSV of TSV heeft koprij	TRUE/FALSE	Boolean-waarde	onjuist	Geeft aan of het CSV- of TSV-bestand een headerrij heeft
Resultaten in cache gebruiken	TRUE/FALSE	Booleaans	FALSE	Module wordt alleen uitgevoerd als er geen geldige cache bestaat. Anders worden gegevens uit de vorige uitvoering in de cache gebruikt.

Uitvoerwaarden

Naam	Type	Description
Gegevensset met resultaten	Gegevenstabel	Gegevensset met gedownloade gegevens

Uitzonderingen

Uitzondering	Description
Fout 0027	Er treedt een uitzondering op wanneer twee objecten dezelfde grootte moeten hebben, maar dat niet zijn.
Fout 0003	Een uitzondering treedt op als een of meer invoer null of leeg zijn.
Fout 0029	Er treedt een uitzondering op wanneer een ongeldige URI wordt doorgegeven.
Fout 0030	Er treedt een uitzondering op wanneer het niet mogelijk is om een bestand te downloaden.
Fout 0002	Er treedt een uitzondering op als een of meer parameters niet kunnen worden geparseerd of geconverteerd van het opgegeven type naar het type dat is vereist door de doelmethode.
Fout 0048	Er treedt een uitzondering op wanneer het niet mogelijk is om een bestand te openen.
Fout 0046	Er treedt een uitzondering op wanneer het niet mogelijk is om een map te maken op het opgegeven pad.
Fout 0049	Er treedt een uitzondering op wanneer het niet mogelijk is om een bestand te parseren.

Zie Foutcodes voor een lijst met fouten die specifiek zijn Machine Learning voor Studio-modules (klassiek).

Zie Foutcodes voor een lijst Machine Learning REST API API-uitzonderingen.

Zie ook

Gegevens importeren
Gegevens exporteren
Importeren vanuit Hive-query
Importeren vanuit een Azure SQL Database
Importeren vanuit Azure Table
Importeren vanuit Azure Blob Storage
Importeren vanuit gegevensfeedproviders
Importeren vanuit on-premises SQL Server database

Share via