Delen via


Een indelingstechnologie voor gegevenspijplijnen kiezen in Azure

De meeste big data-oplossingen bestaan uit herhaalde gegevensverwerkingsbewerkingen, ingekapseld in werkstromen. Met een pijplijnorchestrator kunt u deze werkstromen automatiseren. Het kan taken plannen, werkstromen uitvoeren en afhankelijkheden tussen taken coƶrdineren.

Opties voor indeling van gegevenspijplijnen

In Azure voldoen de volgende services en hulpprogramma's aan de kernvereisten voor pijplijnindeling, controlestroom en gegevensverplaatsing:

U kunt deze services en hulpprogramma's onafhankelijk van elkaar gebruiken of combineren om een hybride oplossing te maken. De Integration Runtime (IR) in Data Factory V2 kan bijvoorbeeld systeemeigen SSIS-pakketten uitvoeren in een beheerde Azure-rekenomgeving. Deze services delen bepaalde functionaliteit, maar ze hebben enkele belangrijke verschillen.

Criteria voor sleutelselectie

Houd rekening met de volgende factoren om uw opties te beperken:

  • Bepaal of u big data-mogelijkheden nodig hebt om uw gegevens te verplaatsen en transformeren. Deze capaciteiten gebruiken doorgaans meerdere gigabytes (GB) tot terabytes (TB) aan gegevens. Als u deze mogelijkheden nodig hebt, kiest u een service die is ontworpen voor big data.

  • Bepaal of u een beheerde service nodig hebt die op schaal kan worden uitgevoerd. Als u dit doet, kiest u een cloudservice die niet afhankelijk is van uw lokale verwerkingskracht.

  • Controleer of u on-premises gegevensbronnen hebt. Als u dit doet, kiest u een service die zowel cloud- als on-premises gegevensbronnen of bestemmingen ondersteunt.

  • Controleer of u brongegevens opslaat in blobopslag in een Hadoop Distributed File System (HDFS). Als u dit doet, kiest u een service die Hive-query's ondersteunt.

  • Bepaal of u geavanceerde indeling nodig hebt voor complexe ETL-werkstromen (extraheren, transformeren en laden) in meerdere gegevensbronnen. Als u dit doet, kiest u Fabric Data Factory omdat deze een set connectors, pijplijnindeling en integratie biedt met zowel on-premises als cloudomgevingen. Het is ideaal voor gegevensverplaatsing en transformatie op ondernemingsniveau.

Mogelijkheidsmatrix

De volgende tabellen bevatten een overzicht van de belangrijkste verschillen in mogelijkheden.

Algemene mogelijkheden

Vermogen Data Factory SSIS (SQL Server Integration Services) Oozie in HDInsight Fabric Datafabriek
Beheerd Ja Nee Ja Ja
Cloudgebaseerde Ja Nee (lokaal) Ja Ja
Voorwaarde Azure-abonnement SQL Server Azure-abonnement, HDInsight-cluster Werkruimte met fabric-ondersteuning
Beheertools Azure portal, PowerShell, CLI, .NET SDK SQL Server Management Studio (SSMS), PowerShell Bash-shell, Oozie REST API, Oozie-webgebruikersinterface (UI) Kopieertaak, spiegelen, pijplijnactiviteiten, Dataflow Gen2
Prijzen Betalen per gebruik Licenties en extra functies verhogen de kosten Opgenomen in HDInsight-cluster Opgenomen in Fabric capaciteit

Pijplijnmogelijkheden

Vermogen Data Factory SSIS (SQL Server Integration Services) Oozie in HDInsight Fabric Datafabriek
Gegevens kopiƫren Ja Ja Ja Ja
Aangepaste transformaties Ja Ja Ja (MapReduce, Pig en Hive-taken) Ja
Beoordeling van Azure Machine Learning Ja Ja (met scripting) Nee Ja (via integratie)
HDInsight op aanvraag Ja Nee Nee Nee
Azure Batch (service voor batchverwerking) Ja Nee Nee Ja
Pig, Hive en MapReduce Ja Nee Ja Ja
Apache Spark Ja Nee Nee Ja
SSIS-pakketten uitvoeren Ja Ja Nee Ja
Controlestroom Ja Ja Ja Ja
Toegang tot on-premises gegevens Ja Ja Nee Ja

Schaalbaarheidsmogelijkheden

Vermogen Data Factory SSIS (SQL Server Integration Services) Oozie in HDInsight Fabric Datafabriek
Opschalen Ja Nee Nee Ja
Uitschalen Ja Nee Ja (door werkknooppunten toe te voegen aan het cluster) Ja
Geoptimaliseerd voor big data Ja Nee Ja Ja

Alternatieve benadering

Naast traditionele batch-gebaseerde orkestratie kan uw platform ook realtime intelligentie gebruiken via de Fabric Real-Time Intelligence functie. Met deze aanpak kunt u continue gegevensopname, transformatie in vlucht en gebeurtenisgestuurde werkstromen gebruiken, zodat u direct kunt reageren wanneer gegevens binnenkomen. Het ondersteunt hoogwaardige scenario's zoals IoT-telemetrieverwerking (Internet of Things), fraudedetectie en operationele bewaking.

Bijdragers

Microsoft onderhoudt dit artikel. De volgende inzenders hebben dit artikel geschreven.

Hoofdauteur:

Als u niet-openbare LinkedIn-profielen wilt zien, meldt u zich aan bij LinkedIn.

Volgende stappen