Clusterprestaties in Azure HDInsight bewaken

Het bewaken van de status en prestaties van een HDInsight-cluster is essentieel voor het handhaven van optimale prestaties en resourcegebruik. Bewaking kan u ook helpen bij het detecteren en oplossen van clusterconfiguratiefouten en problemen met gebruikerscode.

In de volgende secties wordt beschreven hoe u de belasting van uw clusters, Apache Hadoop YARN-wachtrijen bewaakt en optimaliseert en problemen met opslagbeperking detecteert.

Clusterbelasting bewaken

Hadoop-clusters kunnen de meest optimale prestaties leveren wanneer de belasting van het cluster gelijkmatig wordt verdeeld over alle knooppunten. Hierdoor kunnen de verwerkingstaken worden uitgevoerd zonder te worden beperkt door RAM-, CPU- of schijfresources op afzonderlijke knooppunten.

Als u de knooppunten van uw cluster en hun laden wilt bekijken, meldt u zich aan bij de Ambari-webinterface en selecteert u vervolgens het tabblad Hosts . Uw hosts worden weergegeven op basis van hun volledig gekwalificeerde domeinnamen. De operationele status van elke host wordt weergegeven met een gekleurde statusindicator:

Kleur Description
Red Ten minste één hoofdonderdeel op de host is offline. Beweeg de muisaanwijzer om knopinfo weer te geven met een lijst met betrokken onderdelen.
Oranje Ten minste één secundair onderdeel op de host is offline. Beweeg de muisaanwijzer om knopinfo weer te geven met een lijst met betrokken onderdelen.
Geel Ambari Server heeft al langer dan 3 minuten geen heartbeat van de host ontvangen.
Green Normale actieve status.

U ziet ook kolommen met het aantal kernen en de hoeveelheid RAM voor elke host, en het schijfgebruik en het gemiddelde van de belasting.

Overzicht van het tabblad Apache Ambari-hosts

Selecteer een van de hostnamen voor een gedetailleerd overzicht van de onderdelen die op die host worden uitgevoerd en de bijbehorende metrische gegevens. De metrische gegevens worden weergegeven als een selecteerbare tijdlijn van CPU-gebruik, belasting, schijfgebruik, geheugengebruik, netwerkgebruik en het aantal processen.

Overzicht van apache Ambari-hostdetails

Zie HDInsight-clusters beheren met behulp van de Apache Ambari-webinterface voor meer informatie over het instellen van waarschuwingen en het weergeven van metrische gegevens.

CONFIGURATIE VAN YARN-wachtrij

Hadoop heeft verschillende services die worden uitgevoerd op het gedistribueerde platform. YARN (Yet Another Resource Negotiator) coördineert deze services en wijst clusterresources toe om ervoor te zorgen dat de belasting gelijkmatig over het cluster wordt verdeeld.

YARN verdeelt de twee verantwoordelijkheden van de JobTracker, resourcebeheer en taakplanning/-bewaking, in twee daemons: een globale Resource Manager en een ApplicationMaster (AM) per toepassing.

De Resource Manager is een pure scheduler en bemiddelt alleen beschikbare resources tussen alle concurrerende toepassingen. De Resource Manager zorgt ervoor dat alle resources altijd in gebruik zijn, waarbij wordt geoptimaliseerd voor verschillende constanten, zoals SLA's, capaciteitsgaranties, enzovoort. De ApplicationMaster onderhandelt over resources van de Resource Manager en werkt samen met de NodeManager(s) om de containers en hun resourceverbruik uit te voeren en te bewaken.

Wanneer meerdere tenants een groot cluster delen, is er concurrentie om de resources van het cluster. De CapacityScheduler is een pluggable scheduler die helpt bij het delen van resources door aanvragen in de wachtrij te plaatsen. De CapacityScheduler ondersteunt ook hiërarchische wachtrijen om ervoor te zorgen dat resources worden gedeeld tussen de submappen van een organisatie, voordat de wachtrijen van andere toepassingen gratis resources mogen gebruiken.

Met YARN kunnen we resources toewijzen aan deze wachtrijen en kunt u zien of al uw beschikbare resources zijn toegewezen. Als u informatie over uw wachtrijen wilt weergeven, meldt u zich aan bij de Ambari-webgebruikersinterface en selecteert u vervolgens YARN Queue Manager in het bovenste menu.

Apache Ambari YARN Queue Manager

Op de pagina YARN Queue Manager ziet u aan de linkerkant een lijst met uw wachtrijen, samen met het percentage capaciteit dat aan elke wachtrij is toegewezen.

Pagina met details van YARN Queue Manager

Selecteer in het Ambari-dashboard de YARN-service in de lijst aan de linkerkant voor een gedetailleerder overzicht van uw wachtrijen. Selecteer vervolgens in de vervolgkeuzelijst Snelle koppelingenResource Manager gebruikersinterface onder uw actieve knooppunt.

menukoppelingen voor Resource Manager gebruikersinterface

Selecteer in de gebruikersinterface van Resource Manager Scheduler in het menu aan de linkerkant. U ziet een lijst met uw wachtrijen onder Toepassingswachtrijen. Hier ziet u de capaciteit die wordt gebruikt voor elk van uw wachtrijen, hoe goed de taken over de wachtrijen zijn verdeeld en of er taken met beperkte resources zijn.

Menu gebruikersinterface van Apache HAdoop Resource Manager

Opslagbeperking

Het prestatieknelpunt van een cluster kan optreden op opslagniveau. Dit type knelpunt wordt meestal veroorzaakt door blokkerende invoer-/uitvoerbewerkingen (IO), die optreden wanneer uw actieve taken meer IO verzenden dan de opslagservice kan verwerken. Deze blokkering maakt een wachtrij met IO-aanvragen die wachten om te worden verwerkt totdat de huidige IO's zijn verwerkt. De blokken worden veroorzaakt door opslagbeperking. Dit is geen fysieke limiet, maar een limiet die door de opslagservice wordt opgelegd door een Sla (Service Level Agreement). Deze limiet zorgt ervoor dat geen enkele client of tenant de service kan monopoliseren. De SLA beperkt het aantal IO's per seconde (IOPS) voor Azure Storage. Zie Schaalbaarheids- en prestatiedoelen voor standaardopslagaccounts voor meer informatie.

Als u Azure Storage gebruikt, raadpleegt u Microsoft Azure Storage bewaken, diagnosticeren en problemen oplossen voor informatie over het bewaken van problemen met betrekking tot opslag, waaronder beperking.

Als de back-upopslag van uw cluster Azure Data Lake Storage (ADLS) is, wordt de beperking waarschijnlijk veroorzaakt door bandbreedtelimieten. Beperking in dit geval kan worden geïdentificeerd door beperkingsfouten in taaklogboeken te observeren. Zie de sectie beperking voor de juiste service in de volgende artikelen voor ADLS:

Problemen met trage knooppuntprestaties oplossen

In sommige gevallen kan er sprake zijn van een traagheid vanwege onvoldoende schijfruimte op het cluster. Onderzoek met deze stappen:

  1. Gebruik de SSH-opdracht om verbinding te maken met elk van de knooppunten.

  2. Controleer het schijfgebruik door een van de volgende opdrachten uit te voeren:

    df -h
    du -h --max-depth=1 / | sort -h
    
  3. Controleer de uitvoer en controleer op de aanwezigheid van grote bestanden in de mnt map of andere mappen. Normaal gesproken bevatten de usercachemappen , en appcache (mnt/resource/hadoop/yarn/local/usercache/hive/appcache/) grote bestanden.

  4. Als er grote bestanden zijn, veroorzaakt een huidige taak de bestandsgroei of heeft een mislukte vorige taak mogelijk bijgedragen aan dit probleem. Voer de volgende opdracht uit om te controleren of dit gedrag wordt veroorzaakt door een huidige taak:

    sudo du -h --max-depth=1 /mnt/resource/hadoop/yarn/local/usercache/hive/appcache/
    
  5. Als met deze opdracht een specifieke taak wordt aangeduid, kunt u ervoor kiezen de taak te beëindigen met behulp van een opdracht die er ongeveer als volgt uitziet:

    yarn application -kill -applicationId <application_id>
    

    Vervang door de toepassings-id application_id . Als er geen specifieke taken worden aangeduid, gaat u naar de volgende stap.

  6. Nadat de bovenstaande opdracht is voltooid, of als er geen specifieke taken zijn aangegeven, verwijdert u de grote bestanden die u hebt geïdentificeerd door een opdracht uit te voeren die er ongeveer als volgt uitziet:

    rm -rf filecache usercache
    

Zie Onvoldoende schijfruimte voor meer informatie over schijfruimteproblemen.

Notitie

Als u grote bestanden hebt die u wilt behouden, maar die bijdragen aan het probleem met weinig schijfruimte, moet u uw HDInsight-cluster omhoog schalen en uw services opnieuw starten. Nadat u deze procedure hebt voltooid en een paar minuten hebt gewacht, ziet u dat de opslag is vrijgemaakt en dat de gebruikelijke prestaties van het knooppunt worden hersteld.

Volgende stappen

Ga naar de volgende koppelingen voor meer informatie over het oplossen van problemen met en het bewaken van uw clusters: