Bulksgewijs kopiëren van een database naar Azure Data Explorer met behulp van de Azure Data Factory-sjabloon

2025-05-07

Azure Data Explorer is een snelle, volledig beheerde service voor gegevensanalyse. Het biedt realtime analyse van grote hoeveelheden gegevens die vanuit veel bronnen worden gestreamd, zoals toepassingen, websites en IoT-apparaten.

Als u gegevens wilt kopiëren van een database in Oracle Server, Netezza, Teradata of SQL Server naar Azure Data Explorer, moet u grote hoeveelheden gegevens uit meerdere tabellen laden. Normaal gesproken moeten de gegevens in elke tabel worden gepartitioneerd, zodat u rijen met meerdere threads parallel vanuit één tabel kunt laden. In dit artikel wordt een sjabloon beschreven die in deze scenario's moet worden gebruikt.

Azure Data Factory-sjablonen zijn vooraf gedefinieerde Data Factory-pijplijnen. Met deze sjablonen kunt u snel aan de slag met Data Factory en de ontwikkelingstijd voor gegevensintegratieprojecten verminderen.

U maakt de sjabloon Bulksgewijs kopiëren van database naar Azure Data Explorer met behulp van opzoek - en ForEach-activiteiten . Voor snellere gegevenskopie kunt u de sjabloon gebruiken om veel pijplijnen per database of tabel te maken.

Belangrijk

Zorg ervoor dat u het hulpprogramma gebruikt dat geschikt is voor de hoeveelheid gegevens die u wilt kopiëren.

Gebruik de sjabloon Bulksgewijs kopiëren van database naar Azure Data Explorer om grote hoeveelheden gegevens van databases, zoals SQL Server en Google BigQuery, te kopiëren naar Azure Data Explorer.
Gebruik het hulpprogramma Data Factory Copy Data om een paar tabellen met kleine of gemiddelde hoeveelheden gegevens te kopiëren naar Azure Data Explorer.

Vereiste voorwaarden

Een Azure-abonnement. Maak een gratis Azure-account.
Een Azure Data Explorer-cluster en -database. Een cluster en database maken.
Een gegevensfabriek. Een data factory maken.
Een gegevensbron.

ControlTableDataset maken

ControlTableDataset geeft aan welke gegevens van de bron naar de bestemming in de pijplijn worden gekopieerd. Het aantal rijen geeft het totale aantal pijplijnen aan dat nodig is om de gegevens te kopiëren. U moet ControlTableDataset definiëren als onderdeel van de brondatabase.

Een voorbeeld van de sql Server-brontabelindeling wordt weergegeven in de volgende code:

CREATE TABLE control_table (
PartitionId int,
SourceQuery varchar(255),
ADXTableName varchar(255)
);

De code-elementen worden beschreven in de volgende tabel:

Vastgoed	Beschrijving	Voorbeeld
Partitie-ID	De kopieervolgorde	1
SourceQuery	De query die aangeeft welke gegevens worden gekopieerd tijdens de pijplijnruntime	`select * from table where lastmodifiedtime LastModifytime >= ''2015-01-01 00:00:00''>`
ADXTableName	De naam van de doeltabel	MijnAdxTable

Als uw ControlTableDataset een andere indeling heeft, maakt u een vergelijkbare ControlTableDataset voor uw indeling.

Sjabloon voor bulk kopiëren van database naar Azure Data Explorer gebruiken

Selecteer in het deelvenster Aan de slag de optie Pijplijn maken van sjabloon om het deelvenster Sjabloongalerie te openen .
Selecteer de sjabloon Bulksgewijs kopiëren van database naar Azure Data Explorer .
Geef in het deelvenster Bulksgewijs kopiëren van database naar Azure Data Explorer onder Gebruikersinvoer uw gegevenssets als volgt op:

een. Selecteer in de vervolgkeuzelijst ControlTableDataset de gekoppelde service naar de besturingstabel die aangeeft welke gegevens van de bron naar de bestemming worden gekopieerd en waar deze in het doel worden geplaatst.

b. Selecteer in de vervolgkeuzelijst SourceDataset de gekoppelde service naar de brondatabase.

Hoofdstuk c. Selecteer in de vervolgkeuzelijst AzureDataExplorerTable de Azure Data Explorer-tabel. Als de gegevensset niet bestaat, maakt u de gekoppelde Azure Data Explorer-service om de gegevensset toe te voegen.

d. Selecteer Deze sjabloon gebruiken.
Selecteer een gebied in het canvas, buiten de activiteiten, om toegang te krijgen tot de sjabloonpijplijn. Selecteer het tabblad Parameters om de parameters voor de tabel in te voeren, inclusief Naam (naam van besturingstabel) en Standaardwaarde (kolomnamen).
Selecteer onder Opzoeken de optie GetPartitionList om de standaardinstellingen weer te geven. De query wordt automatisch gemaakt.
Selecteer de opdrachtactiviteit , ForEachPartition, selecteer het tabblad Instellingen en ga als volgt te werk:

een. Voer in het vak Batch count een getal in tussen 1 en 50. Deze selectie bepaalt het aantal pijplijnen dat parallel wordt uitgevoerd totdat het aantal ControlTableDataset-rijen is bereikt.

b. Zorg ervoor dat het selectievakje sequentieelniet is geselecteerd om ervoor te zorgen dat de pijplijnbatches parallel worden uitgevoerd.

Aanbeveling

De aanbevolen procedure is om veel pijplijnen parallel uit te voeren, zodat uw gegevens sneller kunnen worden gekopieerd. Als u de efficiëntie wilt verhogen, partitioneert u de gegevens in de brontabel en wijst u één partitie per pijplijn toe, afhankelijk van de datum en tabel.
Selecteer Alles valideren om de Azure Data Factory-pijplijn te valideren en bekijk vervolgens het resultaat in het deelvenster Pijplijnvalidatie-uitvoer .
Selecteer indien nodig Debug en selecteer vervolgens Trigger toevoegen om de pijplijn uit te voeren.