Dela via


Importera från webb-URL via HTTP

Viktigt

Stödet för Machine Learning Studio (klassisk) upphör den 31 augusti 2024. Vi rekommenderar att du byter till Azure Machine Learning innan dess.

Från och med den 1 december 2021 kan du inte längre skapa nya Machine Learning Studio-resurser (klassisk). Du kan fortsätta att använda befintliga Machine Learning Studio-resurser (klassisk) till och med den 31 augusti 2024.

Dokumentationen om ML Studio (klassisk) håller på att dras tillbaka och kanske inte uppdateras i framtiden.

Den här artikeln beskriver hur du använder modulen Importera data i Machine Learning Studio (klassisk) för att läsa data från en offentlig webbsida för användning i ett maskininlärningsexperiment.

Anteckning

Gäller endast för: Machine Learning Studio (klassisk)

Liknande dra och släpp-moduler är tillgängliga i Azure Machine Learning designer.

Följande begränsningar gäller för data som publiceras på en webbsida:

  • Data måste ha något av de format som stöds: CSV, TSV, ARFF eller SvmLight. Andra data orsakar fel.
  • Ingen autentisering krävs eller stöds. Data måste vara offentligt tillgängliga.

Så här importerar du data via HTTP

Det finns två sätt att hämta data: använd guiden för att konfigurera datakällan eller konfigurera den manuellt.

Använd guiden Importera data

  1. Lägg till modulen Importera data i experimentet. Du hittar modulen i Studio (klassisk) i kategorin Indata och utdata .

  2. Klicka på Starta guiden Importera data och välj Webbadress via HTTP.

  3. Klistra in URL:en och välj ett dataformat.

  4. När konfigurationen är klar högerklickar du på modulen och väljer Kör valda.

Om du vill redigera en befintlig dataanslutning startar du guiden igen. Guiden läser in all tidigare konfigurationsinformation så att du inte behöver börja om från början

Ange egenskaper manuellt i modulen Importera data

Följande steg beskriver hur du konfigurerar importkällan manuellt.

  1. Lägg till modulen Importera data i experimentet. Du hittar modulen i Studio (klassisk) i kategorin Indata och utdata .

  2. För Datakälla väljer du Webb-URL via HTTP.

  3. För URL skriver eller klistrar du in den fullständiga URL:en för sidan som innehåller de data som du vill läsa in.

    URL:en ska innehålla webbplats-URL:en och den fullständiga sökvägen, med filnamn och filnamnstillägg, på sidan som innehåller de data som ska läsas in.

    Följande sida innehåller till exempel Iris-datauppsättningen från maskininlärningsdatabasen för University of California, Irvine:

    https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data

  4. För Dataformat väljer du något av de dataformat som stöds i listan.

    Vi rekommenderar att du alltid kontrollerar data i förväg för att fastställa formatet. UC Irvine-sidan använder CSV-formatet. Andra dataformat som stöds är TSV, ARFF och SvmLight.

  5. Om data är i CSV- eller TSV-format använder du alternativet Fil har rubrikrad för att ange om källdata innehåller en rubrikrad. Rubrikraden används för att tilldela kolumnnamn.

  6. Välj alternativet Använd cachelagrade resultat om du inte förväntar dig att data kommer att ändras så mycket, eller om du vill undvika att läsa in data på nytt varje gång du kör experimentet.

    När det här alternativet väljs läser experimentet in data första gången modulen körs och använder sedan en cachelagrad version av datauppsättningen.

    Om du vill läsa in datauppsättningen på nytt vid varje iteration av experimentdatauppsättningen avmarkerar du alternativet Använd cachelagrade resultat. Resultaten läses också in på nya sätt om det finns några ändringar i parametrarna för importdata.

  7. Kör experimentet.

Resultat

När du är klar klickar du på utdatauppsättningen och väljer Visualisera för att se om data har importerats.

Exempel

Se de här exemplen i Azure AI Gallery av maskininlärningsexperiment som hämtar data från offentliga webbplatser:

Teknisk information

Det här avsnittet innehåller implementeringsinformation, tips och svar på vanliga frågor.

Vanliga frågor

Kan jag filtrera data när de läses från källan?

Nej. Det alternativet stöds inte med den här datakällan.

När du har läst in data i Machine Learning Studio (klassisk) kan du dela datauppsättningen, använda sampling och så vidare för att hämta de rader du vill ha:

  • Skriv lite enkel R-kod i Execute R Script (Kör R-skript ) för att hämta en del av data efter rader eller kolumner.

  • Använd modulen Dela data med ett relativt uttryck eller ett reguljärt uttryck för att isolera de data du vill ha.

  • Om du har läst in mer data än du behöver skriver du över den cachelagrade datauppsättningen genom att läsa in en ny datauppsättning och spara den med samma namn.

Hur undviker jag att läsa in samma data i onödan

Om dina källdata ändras kan du uppdatera datauppsättningen och lägga till nya data genom att köra Importera data igen.

Om du inte vill läsa från källan varje gång du kör experimentet väljer du alternativet Använd cachelagrade resultat till TRUE. När det här alternativet är inställt på TRUE kontrollerar modulen om experimentet har körts tidigare med samma källalternativ och samma indataalternativ. Om en tidigare körning hittas används data i cacheminnet i stället för att läsa in data från källan igen.

Varför lades en extra rad till i slutet av min datauppsättning

Om modulen Importera data påträffar en rad med data som följs av en tom rad eller ett avslutande tecken för ny rad läggs en extra rad till i slutet av tabellen. Den nya raden innehåller saknade värden.

Anledningen till att tolka en avslutande ny rad som en ny rad är att Importera data inte kan fastställa skillnaden mellan en faktisk tom rad och en tom rad som skapas av användaren genom att trycka på RETUR i slutet av en fil.

Eftersom vissa maskininlärningsalgoritmer stöder saknade data och därför behandlar den här raden som ett fall (som i sin tur kan påverka resultaten), bör du använda Rensa saknade data för att söka efter saknade värden (särskilt rader som är helt tomma) och ta bort dem efter behov.

Innan du söker efter tomma rader kanske du också vill dela datauppsättningen med hjälp av Dela data. Detta separerar rader med partiella saknade värden, som representerar faktiska saknade värden i källdata. Använd alternativet Välj huvud N rader för att läsa den första delen av datauppsättningen i en separat container från den sista raden.

Varför visas vissa tecken i källfilen inte korrekt

Machine Learning har stöd för UTF-8-kodning. Om källfilen använder en annan typ av kodning kanske inte tecknen importeras korrekt.

Modulparametrar

Name Intervall Typ Standardvärde Description
Datakälla Lista Datakälla eller mottagare Azure Blob Storage Datakällan kan vara HTTP, FTP, anonym HTTPS eller FTPS, en fil i Azure BLOB Storage, en Azure-tabell, en Azure SQL Database, en lokal SQL Server-databas, en Hive-tabell eller en OData-slutpunkt.
URL valfri Sträng inget URL för HTTP
Dataformat CSV

TSV

ARFF

SvmLight
Dataformat CSV Filtyp för HTTP-källa
CSV eller TSV har rubrikrad TRUE/FALSE Boolesk falskt Anger om CSV- eller TSV-filen har en rubrikrad
Använda cachelagrade resultat TRUE/FALSE Boolesk FALSE Modulen körs bara om det inte finns någon giltig cache. Annars används cachelagrade data från föregående körning.

Utdata

Namn Typ Description
Resultatdatauppsättning Datatabell Datauppsättning med nedladdade data

Undantag

Undantag Description
Fel 0027 Ett undantag inträffar när två objekt måste ha samma storlek, men de inte är det.
Fel 0003 Ett undantag inträffar om en eller flera indata är null eller tomma.
Fel 0029 Ett undantag inträffar när en ogiltig URI skickas.
Fel 0030 ett undantag inträffar i när det inte går att ladda ned en fil.
Fel 0002 Ett undantag inträffar om en eller flera parametrar inte kunde parsas eller konverteras från den angivna typen till den typ som krävs av målmetoden.
Fel 0048 Ett undantag inträffar när det inte går att öppna en fil.
Fel 0046 Ett undantag inträffar när det inte går att skapa en katalog på den angivna sökvägen.
Fel 0049 Ett undantag inträffar när det inte går att parsa en fil.

En lista över fel som är specifika för Studio-moduler (klassisk) finns i Machine Learning felkoder.

En lista över API-undantag finns i Machine Learning REST API felkoder.

Se även

Importera data
Exportera data
Importera från Hive-fråga
Importera från Azure SQL Database
Importera från Azure Table
Importera från Azure Blob Storage
Importera från dataflödesproviders
Importera från lokal SQL Server databas