Exporteren naar Hive-query
Belangrijk
De ondersteuning voor Azure Machine Learning-studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden om vóór die datum over te stappen naar Azure Machine Learning.
Vanaf 1 december 2021 kunt u geen nieuwe resources voor Azure Machine Learning-studio (klassiek) meer maken. Tot en met 31 augustus 2024 kunt u de bestaande resources van Azure Machine Learning-studio (klassiek) blijven gebruiken.
- Zie informatie over het verplaatsen machine learning van ML Studio (klassiek) naar Azure Machine Learning.
- Meer informatie over Azure Machine Learning.
De documentatie van ML-studio (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet meer bijgewerkt.
Notitie
Van toepassing op: Machine Learning Studio (klassiek)
Vergelijkbare modules voor slepen en neerzetten zijn beschikbaar in Azure Machine Learning designer.
In dit artikel wordt beschreven hoe u de optie Gegevens exporteren naar Hive gebruikt in de module Gegevens exporteren in Machine Learning Studio (klassiek). Deze optie is handig wanneer u met zeer grote gegevenssets werkt en uw machine learning-experimentgegevens wilt opslaan in een Hadoop-cluster of gedistribueerde HDInsight-opslag. Mogelijk wilt u ook tussenliggende resultaten of andere gegevens exporteren naar Hadoop, zodat u deze kunt verwerken met behulp van een MapReduce-taak.
Gegevens exporteren naar Hive
Voeg de module Gegevens exporteren toe aan uw experiment. U vindt deze module in de categorie Gegevensinvoer en -uitvoer in Machine Learning Studio (klassiek).
Verbinding maken module naar de gegevensset die u wilt exporteren.
Selecteer hive-query bij Gegevensbron.
Bij Hive-tabelnaam typt u de naam van de Hive-tabel waarin de gegevensset moet worden opgeslagen.
Typ in het tekstvak HCatalog-server-URI de volledig gekwalificeerde naam van uw cluster.
Als u bijvoorbeeld een cluster met de naam
mycluster001
hebt gemaakt, gebruikt u deze indeling:https://mycluster001.azurehdinsight.net
Plak in het tekstvak Naam van Hadoop-gebruikersaccount het Hadoop-gebruikersaccount dat u hebt gebruikt bij het inrichten van het cluster.
Typ in het tekstvak Wachtwoord voor Hadoop-gebruikersaccount de referenties die u hebt gebruikt bij het inrichten van het cluster.
Selecteer bij Locatie van uitvoergegevens de optie die aangeeft waar de gegevens moeten worden opgeslagen: HDFS of Azure.
Als de gegevens zich in het HdFS-bestandssysteem (Hadoop Distributed File System) hebben, moeten deze toegankelijk zijn via hetzelfde account en wachtwoord dat u zojuist hebt ingevoerd.
Als de gegevens zich in Azure bevinden, geeft u de locatie en referenties van het opslagaccount op.
Als u de optie HDFS hebt geselecteerd, geeft u voor HDFS-server-URI de naam van het HDInsight-cluster op zonder het voorvoegsel
https://
.Als u de optie Azure hebt geselecteerd, geeft u de naam van het opslagaccount op en de referenties die de module kan gebruiken om verbinding te maken met de opslag.
Naam van Azure-opslagaccount: typ de naam van het Azure-account. Als de volledige URL van het opslagaccount bijvoorbeeld is
https://myshared.blob.core.windows.net
, typt umyshared
.Azure-opslagsleutel: kopieer en plak de sleutel die is opgegeven voor toegang tot het opslagaccount.
Azure-containernaam: geef de standaardcontainer voor het cluster op. Zie de sectie Technische notities voor tips over het vinden van de standaardcontainer.
In cache opgeslagen resultaten gebruiken: selecteer deze optie als u wilt voorkomen dat de Hive-tabel telkens opnieuw wordt geschreven wanneer u het experiment uit te voeren. Als er geen andere wijzigingen in moduleparameters zijn, schrijft het experiment de Hive-tabel alleen wanneer de module voor het eerst wordt uitgevoerd of wanneer er wijzigingen in de gegevens zijn.
Als u de Hive-tabel telkens wilt schrijven wanneer het experiment wordt uitgevoerd, deselecteert u de optie Resultaten in cache gebruiken.
Voer het experiment uit.
Voorbeelden
Zie de Azure AI Gallery voor voorbeelden van het gebruik van de module Azure AI Gallery.
- Advanced Analytics Process and Technology in Action: Using HDInsight Hadoop clusters: Dit artikel biedt een gedetailleerd overzicht van het maken van een cluster, het uploaden van gegevens en het aanroepen van de gegevens vanuit Studio (klassiek) met behulp van Hive.
Technische opmerkingen
Deze sectie bevat implementatiedetails, tips en antwoorden op veelgestelde vragen.
Veelgestelde vragen
Problemen met het geheugen voorkomen bij het schrijven van grote gegevenssets
Soms is de standaardconfiguratie van het Hadoop-cluster te beperkt om het uitvoeren van de MapReduce-taak te ondersteunen. In deze opmerkingen bij de release voor HDInsight worden de standaardinstellingen bijvoorbeeld gedefinieerd als een cluster met vier knooppunt.
Als de vereisten van de MapReduce-taak de beschikbare capaciteit overschrijden, kunnen de Hive-query's een foutbericht Over onvoldoende geheugen retourneren, waardoor de bewerking Gegevens exporteren mislukt. Als dit gebeurt, kunt u de standaardgeheugentoewijzing voor Hive-query's wijzigen.
Voorkomen dat dezelfde gegevens onnodig opnieuw worden geladen
Als u de Hive-tabel niet telkens opnieuw wilt maken wanneer u het experiment hebt uitgevoerd, selecteert u de optie In cache opgeslagen resultaten gebruiken op TRUE. Wanneer deze optie is ingesteld op TRUE, controleert de module of het experiment eerder is uitgevoerd en als er een eerdere run is gevonden, wordt de schrijfbewerking niet uitgevoerd.
Gebruikstips
Het kan lastig zijn om de standaardcontainer voor het cluster te achterhalen. Hier vindt u enkele tips:
Als u uw cluster hebt gemaakt met behulp van de standaardinstellingen, is er een container met dezelfde naam gemaakt op hetzelfde moment dat het cluster werd gemaakt. Deze container is de standaardcontainer voor het cluster.
Als u het cluster hebt gemaakt met behulp van de optie AANGEPAST MAKEN , hebt u twee opties gekregen voor het selecteren van de standaardcontainer.
Bestaande container: als u een bestaande container hebt geselecteerd, is die container de standaardopslagcontainer voor het cluster.
Standaardcontainer maken: als u deze optie hebt geselecteerd, is er een container met dezelfde naam als het cluster gemaakt en moet u die containernaam opgeven als de standaardcontainer voor het cluster.
Moduleparameters
Name | Bereik | Type | Standaard | Beschrijving |
---|---|---|---|---|
Gegevensbron | Lijst | Gegevensbron of sink | Azure Blob Storage | De gegevensbron kan HTTP, FTP, anonieme HTTPS of FTPS zijn, een bestand in Azure BLOB-opslag, een Azure-tabel, een Azure SQL Database, een Hive-tabel of een OData-eindpunt. |
Hive-tabelnaam | alle | Tekenreeks | geen | Naam van tabel in Hive |
HCatalog-server-URI | alle | Tekenreeks | geen | Het Endpoint van Dekje |
Naam van Hadoop-gebruikersaccount | alle | Tekenreeks | geen | Gebruikersnaam voor Hadoop HDFS/HDInsight |
Wachtwoord voor Hadoop-gebruikersaccount | alle | SecureString | geen | Hadoop HDFS/HDInsight-wachtwoord |
Locatie van uitvoergegevens | alle | DataLocation | HDFS | HDFS of Azure opgeven voor outputDir |
URI van HDFS-server | alle | Tekenreeks | geen | HDFS-rest-eindpunt |
Naam van het Microsoft Azure Storage-account | alle | Tekenreeks | geen | Naam van het Microsoft Azure Storage-account |
Azure-opslagsleutel | alle | SecureString | geen | Azure-opslagsleutel |
Azure-containernaam | alle | Tekenreeks | geen | Azure-containernaam |
Resultaten in cache gebruiken | TRUE/FALSE | Booleaans | FALSE | Module wordt alleen uitgevoerd als er geen geldige cache bestaat; gebruik anders gegevens uit eerdere uitvoering in de cache. |
Uitzonderingen
Uitzondering | Description |
---|---|
Fout 0027 | Er treedt een uitzondering op wanneer twee objecten dezelfde grootte moeten hebben, maar niet. |
Fout 0003 | Er treedt een uitzondering op als een of meer invoer null of leeg zijn. |
Fout 0029 | Er treedt een uitzondering op wanneer een ongeldige URI wordt doorgegeven. |
Fout 0030 | Er treedt een uitzondering op wanneer het niet mogelijk is om een bestand te downloaden. |
Fout 0002 | Er treedt een uitzondering op als een of meer parameters niet kunnen worden geparseerd of geconverteerd van het opgegeven type naar het type dat is vereist voor de doelmethode. |
Fout 0009 | Er treedt een uitzondering op als de naam van het Azure-opslagaccount of de containernaam onjuist is opgegeven. |
Fout 0048 | Er treedt een uitzondering op wanneer het niet mogelijk is om een bestand te openen. |
Fout 0046 | Er treedt een uitzondering op wanneer het niet mogelijk is om een map te maken op het opgegeven pad. |
Fout 0049 | Er treedt een uitzondering op wanneer het niet mogelijk is om een bestand te parseren. |
Zie Foutcodes voor een lijst met fouten die specifiek zijn Machine Learning voor Studio-modules (klassiek).
Zie Foutcodes voor een lijst Machine Learning REST API API-uitzonderingen.
Zie ook
Gegevens importeren
Gegevens exporteren
Exporteren naar Azure SQL Database
Exporteren naar Azure Blob Storage
Exporteren naar Azure Table