Share via


Wat is Apache Flink® in Azure HDInsight in AKS? (Preview)

Notitie

Op 31 januari 2025 wordt Azure HDInsight buiten gebruik gesteld op AKS. Vóór 31 januari 2025 moet u uw workloads migreren naar Microsoft Fabric of een gelijkwaardig Azure-product om te voorkomen dat uw workloads plotseling worden beëindigd. De resterende clusters in uw abonnement worden gestopt en verwijderd van de host.

Alleen basisondersteuning is beschikbaar tot de buitengebruikstellingsdatum.

Belangrijk

Deze functie is momenteel beschikbaar in preview. De aanvullende gebruiksvoorwaarden voor Microsoft Azure Previews bevatten meer juridische voorwaarden die van toepassing zijn op Azure-functies die bèta, in preview of anderszins nog niet beschikbaar zijn in algemene beschikbaarheid. Zie Azure HDInsight op AKS Preview-informatie voor meer informatie over deze specifieke preview. Voor vragen of suggesties voor functies dient u een aanvraag in op AskHDInsight met de details en volgt u ons voor meer updates in de Azure HDInsight-community.

Apache Flink is een framework en gedistribueerde verwerkingsengine voor stateful berekeningen via niet-gebonden en gebonden gegevensstromen. Flink is ontworpen om te worden uitgevoerd in alle algemene clusteromgevingen, berekeningen en stateful streamingtoepassingen op snelheid in het geheugen en op elke schaal uit te voeren. Toepassingen worden geparallelliseerd in mogelijk duizenden taken die in een cluster worden gedistribueerd en gelijktijdig worden uitgevoerd. Daarom kan een toepassing onbeperkte hoeveelheden vCPU's, hoofdgeheugen, schijf en netwerk-IO gebruiken. Bovendien onderhoudt Flink eenvoudig de status van grote toepassingen. Het asynchrone en incrementele controlepuntalgoritme zorgt voor minimale invloed op verwerkingslatenties en garandeert exact eenmaal statusconsistentie.

Apache Flink is een zeer schaalbare analyse-engine voor stroomverwerking.

Enkele van de belangrijkste functies die Flink biedt zijn:

  • Bewerkingen voor gebonden en niet-gebonden streams
  • In geheugenprestaties
  • Mogelijkheid voor zowel streaming- als batchberekeningen
  • Lage latentie, bewerkingen met hoge doorvoer
  • Precies één keer verwerken
  • Hoge beschikbaarheid
  • Status en fouttolerantie
  • Volledig compatibel met hadoop-ecosysteem
  • Geïntegreerde SQL-API's voor zowel stream als batch

Flink architectuurdiagram.

Apache Flink is een uitstekende keuze om veel verschillende soorten toepassingen te ontwikkelen en uit te voeren vanwege de uitgebreide functieset. De functies van Flink omvatten ondersteuning voor stream- en batchverwerking, geavanceerd statusbeheer, semantiek voor gebeurtenistijdverwerking en precies eenmaal consistentiegaranties voor status. Flink heeft geen single point of failure. Flink is bewezen om te schalen naar duizenden kernen en terabytes aan toepassingsstatus, levert hoge doorvoer en lage latentie en zorgt voor een aantal van de meest veeleisende toepassingen voor stroomverwerking ter wereld.

  • Fraudedetectie: Flink kan worden gebruikt om frauduleuze transacties of activiteiten in realtime te detecteren door complexe regels en machine learning-modellen toe te passen op streaminggegevens.
  • Anomaliedetectie: Flink kan worden gebruikt om uitbijters of abnormale patronen in streaminggegevens te identificeren, zoals sensormetingen, netwerkverkeer of gebruikersgedrag.
  • Waarschuwing op basis van regels: Flink kan worden gebruikt om waarschuwingen of meldingen te activeren op basis van vooraf gedefinieerde voorwaarden of drempelwaarden voor streaminggegevens, zoals temperatuur, druk of aandelenkoersen.
  • Bewaking van bedrijfsprocessen: Flink kan worden gebruikt om de status en prestaties van bedrijfsprocessen of werkstromen in realtime bij te houden en te analyseren, zoals orderafhandeling, levering of klantenservice.
  • Webtoepassing (sociaal netwerk): Flink kan worden gebruikt om webtoepassingen aan te sturen die realtime verwerking van door de gebruiker gegenereerde gegevens vereisen, zoals berichten, vind-ik-leuks, opmerkingen of aanbevelingen.

Meer informatie over veelvoorkomende gebruiksvoorbeelden die worden beschreven in Apache Flink Use Cases

Apache Flink-clusters in HDInsight op AKS zijn een volledig beheerde service. De voordelen van het maken van een Flink-cluster in HDInsight op AKS worden hier vermeld.

Functie Beschrijving
Eenvoudig te maken U kunt binnen enkele minuten een nieuw Flink-cluster maken in HDInsight met behulp van Azure Portal, Azure PowerShell of de SDK. Zie Aan de slag met Apache Flink-cluster in HDInsight in AKS.
Gebruiksgemak Flink-clusters in HDInsight op AKS omvatten configuratiebeheer op basis van portal en schalen. Naast deze api voor taakbeheer gebruikt u de REST API of Azure Portal voor taakbeheer.
REST-API's Flink-clusters in HDInsight op AKS omvatten jobbeheer-API, een op REST API gebaseerde Methode voor het indienen van taken op afstand in Azure Portal.
Implementatietype Flink kan toepassingen uitvoeren in sessiemodus of toepassingsmodus. HdInsight op AKS ondersteunt momenteel alleen sessieclusters. U kunt meerdere Flink-taken uitvoeren op een sessiecluster. App-modus staat op de roadmap voor HDInsight in AKS-clusters
Ondersteuning voor Metastore Flink-clusters in HDInsight op AKS kunnen catalogi met Hive Metastore ondersteunen in verschillende open bestandsindelingen met externe controlepunten naar Azure Data Lake Storage Gen2.
Ondersteuning voor Azure Storage Flink-clusters in HDInsight kunnen Azure Data Lake Storage Gen2 als bestandssink gebruiken. Zie Azure Data Lake Storage Gen2 voor meer informatie over Data Lake Storage Gen2.
Integratie met Azure-services Flink-cluster in HDInsight op AKS wordt geleverd met een integratie met Kafka, samen met Azure Event Hubs en Azure HDInsight. U kunt streamingtoepassingen bouwen met behulp van Event Hubs of HDInsight.
Aanpasbaarheid Met HDInsight op AKS kunt u de Flink-clusterknooppunten schalen op basis van de planning met de functie Automatische schaalaanpassing. Zie Automatisch schalen van Azure HDInsight op AKS-clusters.
Statusback-end HDInsight in AKS gebruikt de RocksDB als standaard StateBackend. RocksDB is een insluitbaar permanent sleutel-waardearchief voor snelle opslag.
Controlepunten Controlepunten zijn standaard ingeschakeld in HDInsight op AKS-clusters. Standaardinstellingen in HDInsight in AKS onderhouden de laatste vijf controlepunten in permanente opslag. Als uw taak mislukt, kan de taak opnieuw worden gestart vanaf het laatste controlepunt.
Incrementele controlepunten RocksDB ondersteunt incrementele controlepunten. We raden het gebruik van incrementele controlepunten aan voor een grote status. U moet deze functie handmatig inschakelen. Als u een standaardinstelling instelt in uw flink-conf.yaml: state.backend.incremental: true instelling, worden incrementele controlepunten ingeschakeld, tenzij de toepassing deze instelling in de code overschrijft. Deze instructie is standaard waar. U kunt deze waarde ook rechtstreeks in de code configureren (overschrijft de standaardconfiguratie). EmbeddedRocksDBStateBackend` backend = new `EmbeddedRocksDBStateBackend(true); Standaard behouden we de laatste vijf controlepunten in de geconfigureerde controlepunten. Deze waarde kan worden gewijzigd door de configuratie in de sectie configuratiebeheer te wijzigen state.checkpoints.num-retained: 5

Apache Flink-clusters in HDInsight op AKS bevatten de volgende onderdelen. Ze zijn standaard beschikbaar op de clusters.

Raadpleeg de roadmap voor wat er binnenkort beschikbaar is.

Flink plant taken met behulp van drie gedistribueerde onderdelen, Job manager, Taakbeheer en JobClient, die zijn ingesteld in een Leader-Follower-patroon.

Flink Job: Een Flink job of programma bestaat uit meerdere taken. Taken zijn de basiseenheid van uitvoering in Flink. Elke Flink-taak heeft meerdere exemplaren, afhankelijk van het niveau van parallelle uitvoering en elke instantie wordt uitgevoerd op een TaskManager.

Jobmanager: Jobmanager fungeert als planner en plant taken op taakbeheerders.

Taakbeheer: Taakbeheerders worden geleverd met een of meer sites om taken parallel uit te voeren.

Jobclient: Jobclient communiceert met jobmanager om Flink-taken in te dienen

Flink Web UI: Flink bevat een webgebruikersinterface voor het inspecteren, bewaken en opsporen van fouten in actieve toepassingen.

Flink procesdiagram waarin wordt getoond hoe de job, jobmanager, taakmanager en jobclient samenwerken.

Verwijzing