Share via


Importeren vanuit Azure Table

Belangrijk

De ondersteuning voor Azure Machine Learning-studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden om vóór die datum over te stappen naar Azure Machine Learning.

Vanaf 1 december 2021 kunt u geen nieuwe resources voor Azure Machine Learning-studio (klassiek) meer maken. Tot en met 31 augustus 2024 kunt u de bestaande resources van Azure Machine Learning-studio (klassiek) blijven gebruiken.

De documentatie van ML-studio (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet meer bijgewerkt.

In dit artikel wordt beschreven hoe u de module Gegevens importeren in Machine Learning Studio (klassiek) gebruikt om gestructureerde of semi-gestructureerde gegevens uit Azure-tabellen te importeren in machine learning experiment.

Notitie

Van toepassing op: Machine Learning Studio (klassiek)

Vergelijkbare modules voor slepen en neerzetten zijn beschikbaar in Azure Machine Learning designer.

De Azure-tabelservice is een service voor gegevensbeheer in Azure die grote hoeveelheden gestructureerde, niet-relationele gegevens kan opslaan. Het is een NoSQL-gegevensopslag die geverifieerde aanroepen van binnen en buiten Azure accepteert.

Voor het importeren vanuit Azure Table Storage moet u een van de twee accounttypen kiezen: een opslagaccount dat toegankelijk is via een SAS-URL of een privéopslagaccount dat aanmeldingsreferenties vereist.

Gegevens importeren uit Azure-tabellen

De wizard Gegevens importeren gebruiken

De module bevat een nieuwe wizard om u te helpen een opslagoptie te kiezen, een keuze te maken uit bestaande abonnementen en accounts en snel alle opties te configureren.

  1. Voeg de module Gegevens importeren toe aan uw experiment. U vindt de module onder Gegevensinvoer en -uitvoer.

  2. Klik op Wizard Gegevens importeren starten en volg de aanwijzingen.

  3. Wanneer de configuratie is voltooid, kopieert u de gegevens daadwerkelijk naar uw experiment, klikt u met de rechtermuisknop op de module en selecteert u Geselecteerde uitvoeren.

Als u een bestaande gegevensverbinding wilt bewerken, laadt de wizard alle eerdere configuratiegegevens, zodat u niet opnieuw opnieuw hoeft te beginnen

Handmatig eigenschappen instellen in de module Gegevens importeren

In de volgende stappen wordt beschreven hoe u de importbron handmatig configureert.

  1. Voeg de module Gegevens importeren toe aan uw experiment. U vindt deze module in de groep Gegevensinvoer en -uitvoer in de lijst met experimentitems in Machine Learning Studio (klassiek).

  2. Bij Gegevensbron selecteert u Azure Table.

  3. Kies bij Verificatietype de optie Openbare (SAS-URL) als u weet dat de informatie is opgegeven als een openbare gegevensbron. Een SAS-URL is een tijdsgebonden toegangs-URL die u kunt genereren met behulp van een Azure Storage-hulpprogramma.

    Kies anders Account.

  4. Als uw gegevens zich in een openbare blob hebben die toegankelijk is via een SAS-URL, hebt u geen aanvullende referenties nodig, omdat de URL-tekenreeks alle informatie bevat die nodig is voor downloaden en verificatie.

    Typ of plak in het veld Sas-URI voor tabel de volledige URI die het account en de openbare blob definieert.

    Notitie

    Op een pagina die toegankelijk is via EEN SAS-URL, kunnen gegevens alleen worden opgeslagen in de volgende indelingen: CSV, TSV en ARFF.

  5. Als uw gegevens zich in een privéaccount , moet u referenties, inclusief de accountnaam en de sleutel.

    • Bij Tabelaccountnaam typt of plakt u de naam van het account dat de blob bevat die u wilt openen.

      Als de volledige URL van het opslagaccount bijvoorbeeld is https://myshared.table.core.windows.net, typt u myshared.

    • Plak bij Tabelaccountsleutel de toegangssleutel die is gekoppeld aan het opslagaccount.\

      Als u de toegangssleutel niet weet, zie dan de sectie Opslagtoegangssleutels weergeven, kopiëren en opnieuw maken in dit artikel: Over Azure Storage accounts.

    • Bij Tabelnaam typt u de naam van de specifieke tabel die u wilt lezen.

  6. Kies een optie die aangeeft hoeveel rijen de importgegevens moeten scannen. Bij Gegevens importeren wordt de scan gebruikt om de lijst met kolommen in de gegevens op te halen en om te bepalen wat de kolomgegevenstypen moeten zijn.

    • TopN: Scan alleen het opgegeven aantal rijen, beginnend vanaf de bovenkant van de gegevensset.

      Standaard worden 10 rijen gescand, maar u kunt die waarde verhogen of verlagen met behulp van de optie Aantal rijen voor TopN .

      Als de gegevens homogen en voorspelbaar zijn, selecteert u TopN en voert u een getal in voor N. Voor grote tabellen kan dit leiden tot snellere leestijden.

    • ScanAll: Scan alle rijen in de tabel.

      Als de gegevens zijn gestructureerd met sets eigenschappen die variëren op basis van de diepte en positie van de tabel, kiest u de optie ScanAll om alle rijen te scannen. Dit zorgt voor de integriteit van de resulterende eigenschap en metagegevensconversie.

  7. Geef aan of u wilt dat de gegevens telkens worden vernieuwd wanneer het experiment wordt uitgevoerd. Als u de optie In cache opgeslagen resultaten gebruiken (de standaardinstelling) selecteert, leest de module Gegevens importeren gegevens van de opgegeven bron de eerste keer dat het experiment wordt uitgevoerd en daarna worden de resultaten in de cache opgeslagen. Als er wijzigingen zijn aangebracht in de parameters van de module Gegevens importeren, worden de gegevens opnieuw geladen.

    Als u deze optie uitselecteert, worden de gegevens uit de bron gelezen telkens wanneer het experiment wordt uitgevoerd, ongeacht of de gegevens hetzelfde zijn of niet.

Voorbeelden

Zie de Azure AI Gallery voor voorbeelden van het gebruik van de module Azure AI Gallery.

Technische opmerkingen

Deze sectie bevat implementatiedetails, tips en antwoorden op veelgestelde vragen.

Veelgestelde vragen

Hoe voorkom ik dat dezelfde gegevens onnodig opnieuw worden geladen?

Als uw brongegevens veranderen, kunt u de gegevensset vernieuwen en nieuwe gegevens toevoegen door Gegevens importeren opnieuw uit te voeren. Als u echter niet telkens wanneer u het experiment uit te voeren opnieuw wilt lezen uit de bron, selecteert u de optie In cache opgeslagen resultaten gebruiken op TRUE. Wanneer deze optie is ingesteld op TRUE, controleert de module of het experiment eerder is uitgevoerd met behulp van dezelfde bron en dezelfde invoeropties. Als er een eerdere run wordt gevonden, worden de gegevens in de cache gebruikt in plaats van de gegevens opnieuw te laden uit de bron.

Kan ik gegevens filteren terwijl deze uit de bron worden gelezen?

De module Gegevens importeren biedt geen ondersteuning voor filteren terwijl gegevens worden gelezen. De uitzondering hierop is het lezen van gegevensfeeds, waarmee u soms een filtervoorwaarde kunt opgeven als onderdeel van de feed-URL.

U kunt echter gegevens wijzigen of filteren nadat u deze hebt gelezen in Machine Learning Studio (klassiek):

  • Gebruik een aangepast R-script om gegevens te wijzigen of te filteren.
  • Gebruik de module Split Data (Gegevens splitsen) met een relatieve expressie of een reguliere expressie om de persoonsgegevens te isoleren en sla deze vervolgens op als een gegevensset.

Notitie

Als u meer gegevens hebt geladen dan nodig is, kunt u de gegevensset in de cache overschrijven door een nieuwe gegevensset te lezen en deze op te slaan met dezelfde naam als de oudere, grotere gegevens.

Hoe worden gegevens die zijn geladen vanuit verschillende geografische regio's verwerkt door gegevens importeren?

Als het blob- of tabelopslagaccount zich in een andere regio dan het rekenpunt dat wordt gebruikt voor het machine learning experiment, kan de toegang tot gegevens langzamer zijn. Daarnaast worden er kosten in rekening gebracht voor het in- en uit te gaan van gegevens in het abonnement.

Waarom worden sommige tekens in mijn tabel niet correct weergegeven?

Machine Learning biedt ondersteuning voor UTF-8-codering. Als uw tabel gebruikmaakt van een andere codering, worden de tekens mogelijk niet correct geïmporteerd.

Zijn er niet-verboden tekens of tekens die tijdens het importeren worden gewijzigd?

Als kenmerkgegevens aanhalingstekens of tekenreeksen met een escape-teken bevatten, worden ze verwerkt met behulp van de regels voor dergelijke tekens in Microsoft Excel. Alle andere tekens worden verwerkt met behulp van de volgende specificaties als richtlijn: RFC 4180.

Moduleparameters

Name Bereik Type Standaard Standaard
Gegevensbron Lijst Gegevensbron of sink Azure Blob Storage De gegevensbron kan HTTP, FTP, anonieme HTTPS of FTPS zijn, een bestand in Azure BLOB Storage, een Azure-tabel, een Azure SQL Database, een on-premises SQL Server-database, een Hive-tabel of een OData-eindpunt.
Verificatietype PublicOrSas

Account
tableAuthType Account Geef op of de gegevens zich in een openbare container die toegankelijk is via een SAS-URL, of in een privéopslagaccount zijn dat verificatie vereist voor toegang.

Openbaar of SAS: opties voor openbare opslag

Name Bereik Type Standaard Beschrijving
Tabel-URI alle Tekenreeks
Rijen om te scannen op eigenschapsnamen via SAS geheel getal
Aantal rijen voor TopN via SAS

Account - opties voor privéopslag

Name Bereik Type Standaard Beschrijving
Tabelaccountnaam
Tabelaccountsleutel alle SecureString
Tabelnaam alle
Rijen die moeten worden gescand op eigenschapsnamen TopN

ScanAll
Aantal rijen voor TopN alle geheel getal

Uitvoerwaarden

Naam Type Description
Gegevensset met resultaten Gegevenstabel Gegevensset met gedownloade gegevens

Uitzonderingen

Uitzondering Description
Fout 0027 Er treedt een uitzondering op wanneer twee objecten dezelfde grootte moeten hebben, maar dat niet zijn.
Fout 0003 Een uitzondering treedt op als een of meer invoer null of leeg zijn.
Fout 0029 Er treedt een uitzondering op wanneer een ongeldige URI wordt doorgegeven.
Fout 0030 Er treedt een uitzondering op wanneer het niet mogelijk is om een bestand te downloaden.
Fout 0002 Er treedt een uitzondering op als een of meer parameters niet kunnen worden geparseerd of geconverteerd van het opgegeven type naar het type dat is vereist door de doelmethode.
Fout 0009 Er treedt een uitzondering op als de naam van het Azure-opslagaccount of de containernaam onjuist is opgegeven.
Fout 0048 Er treedt een uitzondering op wanneer het niet mogelijk is om een bestand te openen.
Fout 0046 Er treedt een uitzondering op wanneer het niet mogelijk is om een map te maken op het opgegeven pad.
Fout 0049 Er treedt een uitzondering op wanneer het niet mogelijk is om een bestand te parseren.

Zie Foutcodes voor een lijst met fouten die specifiek zijn Machine Learning voor Studio-modules (klassiek).

Zie Foutcodes voor een lijst Machine Learning REST API API-uitzonderingen.

Zie ook

Gegevens importeren
Gegevens exporteren
Importeren vanuit een web-URL via HTTP
Importeren vanuit Hive-query
Importeren vanuit een Azure SQL Database
Importeren vanuit Azure Blob Storage
Importeren vanuit gegevensfeedproviders
Importeren vanuit on-premises SQL Server database