Share via


Hulpprogramma's voor migratie van Netezza-datawarehouse naar Azure Synapse Analytics

Dit artikel is deel zes van een zevendelige reeks met richtlijnen voor het migreren van Netezza naar Azure Synapse Analytics. De focus van dit artikel ligt op best practices voor Hulpprogramma's van Microsoft en derden.

Hulpprogramma's voor datawarehouse-migratie

Door uw bestaande datawarehouse te migreren naar Azure Synapse profiteert u van:

  • Een wereldwijd veilige, schaalbare, goedkope, cloudeigen, betalen per gebruik analytische database.

  • Het uitgebreide analytische Microsoft-ecosysteem dat bestaat in Azure. Dit ecosysteem bestaat uit technologieën om uw datawarehouse te moderniseren zodra het is gemigreerd en uw analytische mogelijkheden uit te breiden om nieuwe waarde te creëren.

Verschillende hulpprogramma's van zowel Microsoft als externe partners kunnen u helpen bij het migreren van uw bestaande datawarehouse naar Azure Synapse. In dit artikel worden de volgende typen hulpprogramma's besproken:

  • Hulpprogramma's voor gegevens- en databasemigratie van Microsoft.

  • Automatiseringshulpprogramma's voor datawarehouses van derden om de migratie naar Azure Synapse te automatiseren en documenteer deze.

  • Hulpprogramma's voor datawarehousemigratie van derden voor het migreren van schema en gegevens naar Azure Synapse.

  • Hulpprogramma's van derden om de SQL-verschillen tussen uw bestaande datawarehouse-DBMS en Azure Synapse te overbrugmen.

Microsoft-hulpprogramma's voor gegevensmigratie

Microsoft biedt verschillende hulpprogramma's waarmee u uw bestaande datawarehouse kunt migreren naar Azure Synapse, zoals:

  • Azure Data Factory.

  • Microsoft-services voor fysieke gegevensoverdracht.

  • Microsoft-services voor gegevensopname.

In de volgende secties worden deze hulpprogramma's uitgebreider besproken.

Microsoft Azure Data Factory

Data Factory is een volledig beheerde, betalen per gebruik hybride gegevensintegratieservice voor zeer schaalbare ETL- en ELT-verwerking. Het maakt gebruik van Apache Spark om gegevens parallel en in het geheugen te verwerken en te analyseren om de doorvoer te maximaliseren.

Tip

Met Data Factory kunt u zonder code schaalbare pijplijnen voor gegevensintegratie bouwen.

Data Factory-connectors ondersteunen verbindingen met externe gegevensbronnen en databases en bevatten sjablonen voor algemene taken voor gegevensintegratie. Een visuele front-end, browsergebaseerde gebruikersinterface stelt niet-programmeurs in staat pijplijnen te maken en uit te voeren om gegevens op te nemen, te transformeren en te laden. Meer ervaren programmeurs kunnen aangepaste code opnemen, zoals Python-programma's.

Tip

Data Factory maakt samenwerking tussen zakelijke en IT-professionals mogelijk.

Data Factory is ook een indelingsprogramma en is het beste Microsoft-hulpprogramma om het end-to-end-migratieproces te automatiseren. Automatisering vermindert het risico, de inspanning en de tijd die moet worden gemigreerd en maakt het migratieproces eenvoudig herhaalbaar. In het volgende diagram ziet u een toewijzingsgegevensstroom in Data Factory.

Schermopname van een voorbeeld van een data factory-toewijzingsgegevensstroom.

In de volgende schermopname ziet u een wrangling-gegevensstroom in Data Factory.

Schermopname van een voorbeeld van data factory-wrangling-gegevensstromen.

In Data Factory kunt u met slechts een paar klikken eenvoudige of uitgebreide ETL- en ELT-processen ontwikkelen zonder code of onderhoud. ETL/ELT-processen opnemen, verplaatsen, voorbereiden, transformeren en verwerken van uw gegevens. U kunt planningen en triggers in Data Factory ontwerpen en beheren om een geautomatiseerde omgeving voor gegevensintegratie en -laden te bouwen. In Data Factory kunt u polybase-processen voor bulksgewijs laden van gegevens definiëren, beheren en plannen.

Tip

Data Factory bevat hulpprogramma's waarmee u zowel uw gegevens als uw hele datawarehouse naar Azure kunt migreren.

U kunt Data Factory gebruiken voor het implementeren en beheren van een hybride omgeving met on-premises, cloud-, streaming- en SaaS-gegevens op een veilige en consistente manier. SaaS-gegevens kunnen afkomstig zijn van toepassingen zoals Salesforce.

Wrangling van gegevensstromen is een nieuwe functie in Data Factory. Met deze mogelijkheid wordt Data Factory geopend voor zakelijke gebruikers die gegevens op schaal visueel willen ontdekken, verkennen en voorbereiden zonder code te hoeven schrijven. Wrangling-gegevensstromen bieden selfservice voor gegevensvoorbereiding, vergelijkbaar met Microsoft Excel-, Power Query- en Microsoft Power BI-gegevensstromen. Zakelijke gebruikers kunnen gegevens voorbereiden en integreren via een gebruikersinterface in spreadsheetstijl met opties voor vervolgkeuzelijsten voor transformatie.

Data Factory is de aanbevolen methode voor het implementeren van gegevensintegratie en ETL/ELT-processen in de Azure Synapse-omgeving, met name als u bestaande verouderde processen wilt herstructureren.

Microsoft-services voor fysieke gegevensoverdracht

In de volgende secties wordt een reeks producten en services besproken die Microsoft biedt om klanten te helpen bij gegevensoverdracht.

Azure ExpressRoute

Azure ExpressRoute maakt privéverbindingen tussen Azure-datacenters en infrastructuur op uw locatie of in een collocatieomgeving. ExpressRoute-verbindingen gaan niet via het openbare internet en bieden meer betrouwbaarheid, hogere snelheden en lagere latenties dan gewone internetverbindingen. In sommige gevallen profiteert u van aanzienlijke kostenvoordelen door ExpressRoute-verbindingen te gebruiken om gegevens over te dragen tussen on-premises systemen en Azure.

AzCopy

AzCopy is een opdrachtregelprogramma waarmee bestanden naar Azure Blob Storage worden gekopieerd via een standaard internetverbinding. In een warehousemigratieproject kunt u AzCopy gebruiken om geëxtraheerde, gecomprimeerde, gescheiden tekstbestanden te uploaden voordat u ze in Azure Synapse laadt met polybase. AzCopy kan afzonderlijke bestanden, bestandsselecties of bestandsmappen uploaden. Als de geëxporteerde bestanden de Parquet-indeling hebben, gebruikt u in plaats daarvan een systeemeigen Parquet-lezer.

Azure Data Box

Azure Data Box is een Microsoft-service die u een eigen fysiek opslagapparaat biedt waarnaar u migratiegegevens kunt kopiëren. Vervolgens verzendt u het apparaat naar een Azure-datacenter voor het uploaden van gegevens naar cloudopslag. Deze service kan rendabel zijn voor grote hoeveelheden gegevens, zoals tientallen of honderden terabytes, of wanneer netwerkbandbreedte niet direct beschikbaar is. Azure Data Box wordt doorgaans gebruikt voor een grote eenmalige belasting van historische gegevens in Azure Synapse.

Azure Data Box Gateway

Azure Data Box Gateway is een gevirtualiseerd gatewayapparaat voor cloudopslag dat zich op uw locatie bevindt en dat uw afbeeldingen, media en andere gegevens naar Azure verzendt. Gebruik Data Box Gateway voor eenmalige migratietaken of doorlopende incrementele gegevensuploads.

Microsoft-services voor gegevensopname

In de volgende secties worden de producten en services besproken die Microsoft biedt om klanten te helpen bij het opnemen van gegevens.

COPY INTO

De COPY INTO-instructie biedt de meeste flexibiliteit voor gegevensopname met hoge doorvoer in Azure Synapse. Zie COPY (Transact-SQL) voor meer informatie over COPY INTO mogelijkheden.

PolyBase

PolyBase is de snelste, meest schaalbare methode voor het bulksgewijs laden van gegevens in Azure Synapse. PolyBase maakt gebruik van de MPP-architectuur (Massively Parallel Processing) van Azure Synapse voor het parallel laden van gegevens om de snelste doorvoer te bereiken. PolyBase kan gegevens lezen uit platte bestanden in Azure Blob Storage of rechtstreeks uit externe gegevensbronnen en andere relationele databases via connectors.

Tip

PolyBase kan gegevens parallel laden van Azure Blob Storage naar Azure Synapse.

PolyBase kan ook rechtstreeks lezen uit bestanden die zijn gecomprimeerd met gzip om het fysieke volume van gegevens tijdens een laadproces te verminderen. PolyBase ondersteunt populaire gegevensindelingen, zoals tekst met scheidingstekens, ORC en Parquet.

Tip

U kunt PolyBase aanroepen vanuit Data Factory als onderdeel van een migratiepijplijn.

PolyBase is nauw geïntegreerd met Data Factory om snelle ontwikkeling van ETL-/ELT-processen voor gegevensbelasting te ondersteunen. U kunt processen voor het laden van gegevens plannen via een visuele gebruikersinterface voor een hogere productiviteit en minder fouten dan met de hand geschreven code. Microsoft raadt PolyBase aan voor gegevensopname in Azure Synapse, met name voor gegevensopname met grote volumes.

PolyBase gebruikt CREATE TABLE AS of INSERT...SELECT -instructies om gegevens te laden. CREATE TABLE AS minimaliseert logboekregistratie om de hoogste doorvoer te bereiken. De meest efficiënte invoerindeling voor het laden van gegevens is gecomprimeerde tekstbestanden met scheidingstekens. Voor maximale doorvoer splitst u grote invoerbestanden in meerdere kleinere bestanden en laadt u ze parallel. Voor het snelste laden naar een faseringstabel definieert u de doeltabel als HEAP type en gebruikt u round robin-distributie.

PolyBase heeft enkele beperkingen. De gegevensrijlengte moet kleiner zijn dan 1 megabyte en biedt geen ondersteuning voor geneste indelingen met vaste breedte, zoals JSON en XML.

Microsoft-partners voor Netezza-migraties

Microsoft-partners bieden hulpprogramma's, services en expertise om u te helpen uw verouderde on-premises datawarehouseplatform te migreren naar Azure Synapse.

Volgende stappen

Zie het volgende artikel in deze reeks voor meer informatie over het implementeren van moderne datawarehouses: Beyond Netezza migration, implement a modern data warehouse in Microsoft Azure (Beyond Netezza migration, implement a modern data warehouse in Microsoft Azure).