Delen via


Exporteren naar Hive-query

Belangrijk

De ondersteuning voor Azure Machine Learning-studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden om vóór die datum over te stappen naar Azure Machine Learning.

Vanaf 1 december 2021 kunt u geen nieuwe resources voor Azure Machine Learning-studio (klassiek) meer maken. Tot en met 31 augustus 2024 kunt u de bestaande resources van Azure Machine Learning-studio (klassiek) blijven gebruiken.

De documentatie van ML-studio (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet meer bijgewerkt.

Notitie

Van toepassing op: Machine Learning Studio (klassiek)

Vergelijkbare modules voor slepen en neerzetten zijn beschikbaar in Azure Machine Learning designer.

In dit artikel wordt beschreven hoe u de optie Gegevens exporteren naar Hive gebruikt in de module Gegevens exporteren in Machine Learning Studio (klassiek). Deze optie is handig wanneer u met zeer grote gegevenssets werkt en uw machine learning-experimentgegevens wilt opslaan in een Hadoop-cluster of gedistribueerde HDInsight-opslag. Mogelijk wilt u ook tussenliggende resultaten of andere gegevens exporteren naar Hadoop, zodat u deze kunt verwerken met behulp van een MapReduce-taak.

Gegevens exporteren naar Hive

  1. Voeg de module Gegevens exporteren toe aan uw experiment. U vindt deze module in de categorie Gegevensinvoer en -uitvoer in Machine Learning Studio (klassiek).

    Verbinding maken module naar de gegevensset die u wilt exporteren.

  2. Selecteer hive-query bij Gegevensbron.

  3. Bij Hive-tabelnaam typt u de naam van de Hive-tabel waarin de gegevensset moet worden opgeslagen.

  4. Typ in het tekstvak HCatalog-server-URI de volledig gekwalificeerde naam van uw cluster.

    Als u bijvoorbeeld een cluster met de naam mycluster001hebt gemaakt, gebruikt u deze indeling:

    https://mycluster001.azurehdinsight.net

  5. Plak in het tekstvak Naam van Hadoop-gebruikersaccount het Hadoop-gebruikersaccount dat u hebt gebruikt bij het inrichten van het cluster.

  6. Typ in het tekstvak Wachtwoord voor Hadoop-gebruikersaccount de referenties die u hebt gebruikt bij het inrichten van het cluster.

  7. Selecteer bij Locatie van uitvoergegevens de optie die aangeeft waar de gegevens moeten worden opgeslagen: HDFS of Azure.

    Als de gegevens zich in het HdFS-bestandssysteem (Hadoop Distributed File System) hebben, moeten deze toegankelijk zijn via hetzelfde account en wachtwoord dat u zojuist hebt ingevoerd.

    Als de gegevens zich in Azure bevinden, geeft u de locatie en referenties van het opslagaccount op.

  8. Als u de optie HDFS hebt geselecteerd, geeft u voor HDFS-server-URI de naam van het HDInsight-cluster op zonder het voorvoegsel https:// .

  9. Als u de optie Azure hebt geselecteerd, geeft u de naam van het opslagaccount op en de referenties die de module kan gebruiken om verbinding te maken met de opslag.

    • Naam van Azure-opslagaccount: typ de naam van het Azure-account. Als de volledige URL van het opslagaccount bijvoorbeeld is https://myshared.blob.core.windows.net, typt u myshared.

    • Azure-opslagsleutel: kopieer en plak de sleutel die is opgegeven voor toegang tot het opslagaccount.

    • Azure-containernaam: geef de standaardcontainer voor het cluster op. Zie de sectie Technische notities voor tips over het vinden van de standaardcontainer.

  10. In cache opgeslagen resultaten gebruiken: selecteer deze optie als u wilt voorkomen dat de Hive-tabel telkens opnieuw wordt geschreven wanneer u het experiment uit te voeren. Als er geen andere wijzigingen in moduleparameters zijn, schrijft het experiment de Hive-tabel alleen wanneer de module voor het eerst wordt uitgevoerd of wanneer er wijzigingen in de gegevens zijn.

    Als u de Hive-tabel telkens wilt schrijven wanneer het experiment wordt uitgevoerd, deselecteert u de optie Resultaten in cache gebruiken.

  11. Voer het experiment uit.

Voorbeelden

Zie de Azure AI Gallery voor voorbeelden van het gebruik van de module Azure AI Gallery.

Technische opmerkingen

Deze sectie bevat implementatiedetails, tips en antwoorden op veelgestelde vragen.

Veelgestelde vragen

Problemen met het geheugen voorkomen bij het schrijven van grote gegevenssets

Soms is de standaardconfiguratie van het Hadoop-cluster te beperkt om het uitvoeren van de MapReduce-taak te ondersteunen. In deze opmerkingen bij de release voor HDInsight worden de standaardinstellingen bijvoorbeeld gedefinieerd als een cluster met vier knooppunt.

Als de vereisten van de MapReduce-taak de beschikbare capaciteit overschrijden, kunnen de Hive-query's een foutbericht Over onvoldoende geheugen retourneren, waardoor de bewerking Gegevens exporteren mislukt. Als dit gebeurt, kunt u de standaardgeheugentoewijzing voor Hive-query's wijzigen.

Voorkomen dat dezelfde gegevens onnodig opnieuw worden geladen

Als u de Hive-tabel niet telkens opnieuw wilt maken wanneer u het experiment hebt uitgevoerd, selecteert u de optie In cache opgeslagen resultaten gebruiken op TRUE. Wanneer deze optie is ingesteld op TRUE, controleert de module of het experiment eerder is uitgevoerd en als er een eerdere run is gevonden, wordt de schrijfbewerking niet uitgevoerd.

Gebruikstips

Het kan lastig zijn om de standaardcontainer voor het cluster te achterhalen. Hier vindt u enkele tips:

  • Als u uw cluster hebt gemaakt met behulp van de standaardinstellingen, is er een container met dezelfde naam gemaakt op hetzelfde moment dat het cluster werd gemaakt. Deze container is de standaardcontainer voor het cluster.

  • Als u het cluster hebt gemaakt met behulp van de optie AANGEPAST MAKEN , hebt u twee opties gekregen voor het selecteren van de standaardcontainer.

    Bestaande container: als u een bestaande container hebt geselecteerd, is die container de standaardopslagcontainer voor het cluster.

    Standaardcontainer maken: als u deze optie hebt geselecteerd, is er een container met dezelfde naam als het cluster gemaakt en moet u die containernaam opgeven als de standaardcontainer voor het cluster.

Moduleparameters

Name Bereik Type Standaard Beschrijving
Gegevensbron Lijst Gegevensbron of sink Azure Blob Storage De gegevensbron kan HTTP, FTP, anonieme HTTPS of FTPS zijn, een bestand in Azure BLOB-opslag, een Azure-tabel, een Azure SQL Database, een Hive-tabel of een OData-eindpunt.
Hive-tabelnaam alle Tekenreeks geen Naam van tabel in Hive
HCatalog-server-URI alle Tekenreeks geen Het Endpoint van Dekje
Naam van Hadoop-gebruikersaccount alle Tekenreeks geen Gebruikersnaam voor Hadoop HDFS/HDInsight
Wachtwoord voor Hadoop-gebruikersaccount alle SecureString geen Hadoop HDFS/HDInsight-wachtwoord
Locatie van uitvoergegevens alle DataLocation HDFS HDFS of Azure opgeven voor outputDir
URI van HDFS-server alle Tekenreeks geen HDFS-rest-eindpunt
Naam van het Microsoft Azure Storage-account alle Tekenreeks geen Naam van het Microsoft Azure Storage-account
Azure-opslagsleutel alle SecureString geen Azure-opslagsleutel
Azure-containernaam alle Tekenreeks geen Azure-containernaam
Resultaten in cache gebruiken TRUE/FALSE Booleaans FALSE Module wordt alleen uitgevoerd als er geen geldige cache bestaat; gebruik anders gegevens uit eerdere uitvoering in de cache.

Uitzonderingen

Uitzondering Description
Fout 0027 Er treedt een uitzondering op wanneer twee objecten dezelfde grootte moeten hebben, maar niet.
Fout 0003 Er treedt een uitzondering op als een of meer invoer null of leeg zijn.
Fout 0029 Er treedt een uitzondering op wanneer een ongeldige URI wordt doorgegeven.
Fout 0030 Er treedt een uitzondering op wanneer het niet mogelijk is om een bestand te downloaden.
Fout 0002 Er treedt een uitzondering op als een of meer parameters niet kunnen worden geparseerd of geconverteerd van het opgegeven type naar het type dat is vereist voor de doelmethode.
Fout 0009 Er treedt een uitzondering op als de naam van het Azure-opslagaccount of de containernaam onjuist is opgegeven.
Fout 0048 Er treedt een uitzondering op wanneer het niet mogelijk is om een bestand te openen.
Fout 0046 Er treedt een uitzondering op wanneer het niet mogelijk is om een map te maken op het opgegeven pad.
Fout 0049 Er treedt een uitzondering op wanneer het niet mogelijk is om een bestand te parseren.

Zie Foutcodes voor een lijst met fouten die specifiek zijn Machine Learning voor Studio-modules (klassiek).

Zie Foutcodes voor een lijst Machine Learning REST API API-uitzonderingen.

Zie ook

Gegevens importeren
Gegevens exporteren
Exporteren naar Azure SQL Database
Exporteren naar Azure Blob Storage
Exporteren naar Azure Table