Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
De meeste big data-oplossingen bestaan uit herhaalde gegevensverwerkingsbewerkingen, ingekapseld in werkstromen. Met een pijplijnorchestrator kunt u deze werkstromen automatiseren. Het kan taken plannen, werkstromen uitvoeren en afhankelijkheden tussen taken coƶrdineren.
Opties voor indeling van gegevenspijplijnen
In Azure voldoen de volgende services en hulpprogramma's aan de kernvereisten voor pijplijnindeling, controlestroom en gegevensverplaatsing:
- Azure Data Factory
- Apache Oozie in Azure HDInsight
- SQL Server Integration Services (SSIS)
- Fabric Data Factory
U kunt deze services en hulpprogramma's onafhankelijk van elkaar gebruiken of combineren om een hybride oplossing te maken. De Integration Runtime (IR) in Data Factory V2 kan bijvoorbeeld systeemeigen SSIS-pakketten uitvoeren in een beheerde Azure-rekenomgeving. Deze services delen bepaalde functionaliteit, maar ze hebben enkele belangrijke verschillen.
Criteria voor sleutelselectie
Houd rekening met de volgende factoren om uw opties te beperken:
Bepaal of u big data-mogelijkheden nodig hebt om uw gegevens te verplaatsen en transformeren. Deze capaciteiten gebruiken doorgaans meerdere gigabytes (GB) tot terabytes (TB) aan gegevens. Als u deze mogelijkheden nodig hebt, kiest u een service die is ontworpen voor big data.
Bepaal of u een beheerde service nodig hebt die op schaal kan worden uitgevoerd. Als u dit doet, kiest u een cloudservice die niet afhankelijk is van uw lokale verwerkingskracht.
Controleer of u on-premises gegevensbronnen hebt. Als u dit doet, kiest u een service die zowel cloud- als on-premises gegevensbronnen of bestemmingen ondersteunt.
Controleer of u brongegevens opslaat in blobopslag in een Hadoop Distributed File System (HDFS). Als u dit doet, kiest u een service die Hive-query's ondersteunt.
Bepaal of u geavanceerde indeling nodig hebt voor complexe ETL-werkstromen (extraheren, transformeren en laden) in meerdere gegevensbronnen. Als u dit doet, kiest u Fabric Data Factory omdat deze een set connectors, pijplijnindeling en integratie biedt met zowel on-premises als cloudomgevingen. Het is ideaal voor gegevensverplaatsing en transformatie op ondernemingsniveau.
Mogelijkheidsmatrix
De volgende tabellen bevatten een overzicht van de belangrijkste verschillen in mogelijkheden.
Algemene mogelijkheden
| Vermogen | Data Factory | SSIS (SQL Server Integration Services) | Oozie in HDInsight | Fabric Datafabriek |
|---|---|---|---|---|
| Beheerd | Ja | Nee | Ja | Ja |
| Cloudgebaseerde | Ja | Nee (lokaal) | Ja | Ja |
| Voorwaarde | Azure-abonnement | SQL Server | Azure-abonnement, HDInsight-cluster | Werkruimte met fabric-ondersteuning |
| Beheertools | Azure portal, PowerShell, CLI, .NET SDK | SQL Server Management Studio (SSMS), PowerShell | Bash-shell, Oozie REST API, Oozie-webgebruikersinterface (UI) | Kopieertaak, spiegelen, pijplijnactiviteiten, Dataflow Gen2 |
| Prijzen | Betalen per gebruik | Licenties en extra functies verhogen de kosten | Opgenomen in HDInsight-cluster | Opgenomen in Fabric capaciteit |
Pijplijnmogelijkheden
| Vermogen | Data Factory | SSIS (SQL Server Integration Services) | Oozie in HDInsight | Fabric Datafabriek |
|---|---|---|---|---|
| Gegevens kopiƫren | Ja | Ja | Ja | Ja |
| Aangepaste transformaties | Ja | Ja | Ja (MapReduce, Pig en Hive-taken) | Ja |
| Beoordeling van Azure Machine Learning | Ja | Ja (met scripting) | Nee | Ja (via integratie) |
| HDInsight op aanvraag | Ja | Nee | Nee | Nee |
| Azure Batch (service voor batchverwerking) | Ja | Nee | Nee | Ja |
| Pig, Hive en MapReduce | Ja | Nee | Ja | Ja |
| Apache Spark | Ja | Nee | Nee | Ja |
| SSIS-pakketten uitvoeren | Ja | Ja | Nee | Ja |
| Controlestroom | Ja | Ja | Ja | Ja |
| Toegang tot on-premises gegevens | Ja | Ja | Nee | Ja |
Schaalbaarheidsmogelijkheden
| Vermogen | Data Factory | SSIS (SQL Server Integration Services) | Oozie in HDInsight | Fabric Datafabriek |
|---|---|---|---|---|
| Opschalen | Ja | Nee | Nee | Ja |
| Uitschalen | Ja | Nee | Ja (door werkknooppunten toe te voegen aan het cluster) | Ja |
| Geoptimaliseerd voor big data | Ja | Nee | Ja | Ja |
Alternatieve benadering
Naast traditionele batch-gebaseerde orkestratie kan uw platform ook realtime intelligentie gebruiken via de Fabric Real-Time Intelligence functie. Met deze aanpak kunt u continue gegevensopname, transformatie in vlucht en gebeurtenisgestuurde werkstromen gebruiken, zodat u direct kunt reageren wanneer gegevens binnenkomen. Het ondersteunt hoogwaardige scenario's zoals IoT-telemetrieverwerking (Internet of Things), fraudedetectie en operationele bewaking.
Bijdragers
Microsoft onderhoudt dit artikel. De volgende inzenders hebben dit artikel geschreven.
Hoofdauteur:
- Zoiner Tejada | CEO en Architect
Als u niet-openbare LinkedIn-profielen wilt zien, meldt u zich aan bij LinkedIn.
Volgende stappen
- Pijplijnen en activiteiten in Fabric Data Factory
- De Azure-SSIS Integration Runtime inrichten in Data Factory
- Oozie gebruiken om een werkstroom uit te voeren in HDInsight
- Medallion-architectuur in Fabric Real-Time Intelligence