Importeren vanuit Azure Table
Belangrijk
De ondersteuning voor Azure Machine Learning-studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden om vóór die datum over te stappen naar Azure Machine Learning.
Vanaf 1 december 2021 kunt u geen nieuwe resources voor Azure Machine Learning-studio (klassiek) meer maken. Tot en met 31 augustus 2024 kunt u de bestaande resources van Azure Machine Learning-studio (klassiek) blijven gebruiken.
- Zie informatie over het verplaatsen machine learning van ML Studio (klassiek) naar Azure Machine Learning.
- Meer informatie over Azure Machine Learning.
De documentatie van ML-studio (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet meer bijgewerkt.
In dit artikel wordt beschreven hoe u de module Gegevens importeren in Machine Learning Studio (klassiek) gebruikt om gestructureerde of semi-gestructureerde gegevens uit Azure-tabellen te importeren in machine learning experiment.
Notitie
Van toepassing op: Machine Learning Studio (klassiek)
Vergelijkbare modules voor slepen en neerzetten zijn beschikbaar in Azure Machine Learning designer.
De Azure-tabelservice is een service voor gegevensbeheer in Azure die grote hoeveelheden gestructureerde, niet-relationele gegevens kan opslaan. Het is een NoSQL-gegevensopslag die geverifieerde aanroepen van binnen en buiten Azure accepteert.
Voor het importeren vanuit Azure Table Storage moet u een van de twee accounttypen kiezen: een opslagaccount dat toegankelijk is via een SAS-URL of een privéopslagaccount dat aanmeldingsreferenties vereist.
Gegevens importeren uit Azure-tabellen
De wizard Gegevens importeren gebruiken
De module bevat een nieuwe wizard om u te helpen een opslagoptie te kiezen, een keuze te maken uit bestaande abonnementen en accounts en snel alle opties te configureren.
Voeg de module Gegevens importeren toe aan uw experiment. U vindt de module onder Gegevensinvoer en -uitvoer.
Klik op Wizard Gegevens importeren starten en volg de aanwijzingen.
Wanneer de configuratie is voltooid, kopieert u de gegevens daadwerkelijk naar uw experiment, klikt u met de rechtermuisknop op de module en selecteert u Geselecteerde uitvoeren.
Als u een bestaande gegevensverbinding wilt bewerken, laadt de wizard alle eerdere configuratiegegevens, zodat u niet opnieuw opnieuw hoeft te beginnen
Handmatig eigenschappen instellen in de module Gegevens importeren
In de volgende stappen wordt beschreven hoe u de importbron handmatig configureert.
Voeg de module Gegevens importeren toe aan uw experiment. U vindt deze module in de groep Gegevensinvoer en -uitvoer in de lijst met experimentitems in Machine Learning Studio (klassiek).
Bij Gegevensbron selecteert u Azure Table.
Kies bij Verificatietype de optie Openbare (SAS-URL) als u weet dat de informatie is opgegeven als een openbare gegevensbron. Een SAS-URL is een tijdsgebonden toegangs-URL die u kunt genereren met behulp van een Azure Storage-hulpprogramma.
Kies anders Account.
Als uw gegevens zich in een openbare blob hebben die toegankelijk is via een SAS-URL, hebt u geen aanvullende referenties nodig, omdat de URL-tekenreeks alle informatie bevat die nodig is voor downloaden en verificatie.
Typ of plak in het veld Sas-URI voor tabel de volledige URI die het account en de openbare blob definieert.
Notitie
Op een pagina die toegankelijk is via EEN SAS-URL, kunnen gegevens alleen worden opgeslagen in de volgende indelingen: CSV, TSV en ARFF.
Als uw gegevens zich in een privéaccount , moet u referenties, inclusief de accountnaam en de sleutel.
Bij Tabelaccountnaam typt of plakt u de naam van het account dat de blob bevat die u wilt openen.
Als de volledige URL van het opslagaccount bijvoorbeeld is
https://myshared.table.core.windows.net
, typt umyshared
.Plak bij Tabelaccountsleutel de toegangssleutel die is gekoppeld aan het opslagaccount.\
Als u de toegangssleutel niet weet, zie dan de sectie Opslagtoegangssleutels weergeven, kopiëren en opnieuw maken in dit artikel: Over Azure Storage accounts.
Bij Tabelnaam typt u de naam van de specifieke tabel die u wilt lezen.
Kies een optie die aangeeft hoeveel rijen de importgegevens moeten scannen. Bij Gegevens importeren wordt de scan gebruikt om de lijst met kolommen in de gegevens op te halen en om te bepalen wat de kolomgegevenstypen moeten zijn.
TopN: Scan alleen het opgegeven aantal rijen, beginnend vanaf de bovenkant van de gegevensset.
Standaard worden 10 rijen gescand, maar u kunt die waarde verhogen of verlagen met behulp van de optie Aantal rijen voor TopN .
Als de gegevens homogen en voorspelbaar zijn, selecteert u TopN en voert u een getal in voor N. Voor grote tabellen kan dit leiden tot snellere leestijden.
ScanAll: Scan alle rijen in de tabel.
Als de gegevens zijn gestructureerd met sets eigenschappen die variëren op basis van de diepte en positie van de tabel, kiest u de optie ScanAll om alle rijen te scannen. Dit zorgt voor de integriteit van de resulterende eigenschap en metagegevensconversie.
Geef aan of u wilt dat de gegevens telkens worden vernieuwd wanneer het experiment wordt uitgevoerd. Als u de optie In cache opgeslagen resultaten gebruiken (de standaardinstelling) selecteert, leest de module Gegevens importeren gegevens van de opgegeven bron de eerste keer dat het experiment wordt uitgevoerd en daarna worden de resultaten in de cache opgeslagen. Als er wijzigingen zijn aangebracht in de parameters van de module Gegevens importeren, worden de gegevens opnieuw geladen.
Als u deze optie uitselecteert, worden de gegevens uit de bron gelezen telkens wanneer het experiment wordt uitgevoerd, ongeacht of de gegevens hetzelfde zijn of niet.
Voorbeelden
Zie de Azure AI Gallery voor voorbeelden van het gebruik van de module Azure AI Gallery.
Technische opmerkingen
Deze sectie bevat implementatiedetails, tips en antwoorden op veelgestelde vragen.
Veelgestelde vragen
Hoe voorkom ik dat dezelfde gegevens onnodig opnieuw worden geladen?
Als uw brongegevens veranderen, kunt u de gegevensset vernieuwen en nieuwe gegevens toevoegen door Gegevens importeren opnieuw uit te voeren. Als u echter niet telkens wanneer u het experiment uit te voeren opnieuw wilt lezen uit de bron, selecteert u de optie In cache opgeslagen resultaten gebruiken op TRUE. Wanneer deze optie is ingesteld op TRUE, controleert de module of het experiment eerder is uitgevoerd met behulp van dezelfde bron en dezelfde invoeropties. Als er een eerdere run wordt gevonden, worden de gegevens in de cache gebruikt in plaats van de gegevens opnieuw te laden uit de bron.
Kan ik gegevens filteren terwijl deze uit de bron worden gelezen?
De module Gegevens importeren biedt geen ondersteuning voor filteren terwijl gegevens worden gelezen. De uitzondering hierop is het lezen van gegevensfeeds, waarmee u soms een filtervoorwaarde kunt opgeven als onderdeel van de feed-URL.
U kunt echter gegevens wijzigen of filteren nadat u deze hebt gelezen in Machine Learning Studio (klassiek):
- Gebruik een aangepast R-script om gegevens te wijzigen of te filteren.
- Gebruik de module Split Data (Gegevens splitsen) met een relatieve expressie of een reguliere expressie om de persoonsgegevens te isoleren en sla deze vervolgens op als een gegevensset.
Notitie
Als u meer gegevens hebt geladen dan nodig is, kunt u de gegevensset in de cache overschrijven door een nieuwe gegevensset te lezen en deze op te slaan met dezelfde naam als de oudere, grotere gegevens.
Hoe worden gegevens die zijn geladen vanuit verschillende geografische regio's verwerkt door gegevens importeren?
Als het blob- of tabelopslagaccount zich in een andere regio dan het rekenpunt dat wordt gebruikt voor het machine learning experiment, kan de toegang tot gegevens langzamer zijn. Daarnaast worden er kosten in rekening gebracht voor het in- en uit te gaan van gegevens in het abonnement.
Waarom worden sommige tekens in mijn tabel niet correct weergegeven?
Machine Learning biedt ondersteuning voor UTF-8-codering. Als uw tabel gebruikmaakt van een andere codering, worden de tekens mogelijk niet correct geïmporteerd.
Zijn er niet-verboden tekens of tekens die tijdens het importeren worden gewijzigd?
Als kenmerkgegevens aanhalingstekens of tekenreeksen met een escape-teken bevatten, worden ze verwerkt met behulp van de regels voor dergelijke tekens in Microsoft Excel. Alle andere tekens worden verwerkt met behulp van de volgende specificaties als richtlijn: RFC 4180.
Moduleparameters
Name | Bereik | Type | Standaard | Standaard |
---|---|---|---|---|
Gegevensbron | Lijst | Gegevensbron of sink | Azure Blob Storage | De gegevensbron kan HTTP, FTP, anonieme HTTPS of FTPS zijn, een bestand in Azure BLOB Storage, een Azure-tabel, een Azure SQL Database, een on-premises SQL Server-database, een Hive-tabel of een OData-eindpunt. |
Verificatietype | PublicOrSas Account |
tableAuthType | Account | Geef op of de gegevens zich in een openbare container die toegankelijk is via een SAS-URL, of in een privéopslagaccount zijn dat verificatie vereist voor toegang. |
Openbaar of SAS: opties voor openbare opslag
Name | Bereik | Type | Standaard | Beschrijving |
---|---|---|---|---|
Tabel-URI | alle | Tekenreeks | ||
Rijen om te scannen op eigenschapsnamen via SAS | geheel getal | |||
Aantal rijen voor TopN via SAS |
Account - opties voor privéopslag
Name | Bereik | Type | Standaard | Beschrijving |
---|---|---|---|---|
Tabelaccountnaam | ||||
Tabelaccountsleutel | alle | SecureString | ||
Tabelnaam | alle | |||
Rijen die moeten worden gescand op eigenschapsnamen | TopN ScanAll |
|||
Aantal rijen voor TopN | alle | geheel getal |
Uitvoerwaarden
Naam | Type | Description |
---|---|---|
Gegevensset met resultaten | Gegevenstabel | Gegevensset met gedownloade gegevens |
Uitzonderingen
Uitzondering | Description |
---|---|
Fout 0027 | Er treedt een uitzondering op wanneer twee objecten dezelfde grootte moeten hebben, maar dat niet zijn. |
Fout 0003 | Een uitzondering treedt op als een of meer invoer null of leeg zijn. |
Fout 0029 | Er treedt een uitzondering op wanneer een ongeldige URI wordt doorgegeven. |
Fout 0030 | Er treedt een uitzondering op wanneer het niet mogelijk is om een bestand te downloaden. |
Fout 0002 | Er treedt een uitzondering op als een of meer parameters niet kunnen worden geparseerd of geconverteerd van het opgegeven type naar het type dat is vereist door de doelmethode. |
Fout 0009 | Er treedt een uitzondering op als de naam van het Azure-opslagaccount of de containernaam onjuist is opgegeven. |
Fout 0048 | Er treedt een uitzondering op wanneer het niet mogelijk is om een bestand te openen. |
Fout 0046 | Er treedt een uitzondering op wanneer het niet mogelijk is om een map te maken op het opgegeven pad. |
Fout 0049 | Er treedt een uitzondering op wanneer het niet mogelijk is om een bestand te parseren. |
Zie Foutcodes voor een lijst met fouten die specifiek zijn Machine Learning voor Studio-modules (klassiek).
Zie Foutcodes voor een lijst Machine Learning REST API API-uitzonderingen.
Zie ook
Gegevens importeren
Gegevens exporteren
Importeren vanuit een web-URL via HTTP
Importeren vanuit Hive-query
Importeren vanuit een Azure SQL Database
Importeren vanuit Azure Blob Storage
Importeren vanuit gegevensfeedproviders
Importeren vanuit on-premises SQL Server database