On-premises Hadoop-gegevens migreren naar Azure Data Lake Storage met WANdisco LiveData Platform voor Azure
WANdisco LiveData Platform voor Azure migreert petabytes aan on-premises Hadoop-gegevens naar Azure Data Lake Storage-bestandssystemen zonder gegevensbewerkingen te onderbreken of uitvaltijd te vereisen. De doorlopende controles van het platform verhinderen dat gegevens verloren gaan, terwijl ze consistent blijven aan beide uiteinden van overdracht, zelfs wanneer ze worden gewijzigd.
Het platform bestaat uit twee services. LiveData Migrator voor Azure migreert actief gebruikte gegevens van on-premises omgevingen naar Azure Storage en LiveData Plane voor Azure zorgt ervoor dat alle gewijzigde of opgenomen gegevens consistent worden gerepliceerd.
Beheer beide services met behulp van Azure Portal en de Azure CLI. Elke service volgt hetzelfde factureringsmodel met betalen per gebruik als alle andere Azure-services: gegevensverbruik in LiveData Platform voor Azure wordt weergegeven op de maandelijkse Azure-factuur, die metrische gebruiksgegevens levert.
In tegenstelling tot het offline migreren van gegevens door statische informatie te kopiëren naar Azure Data Box of met behulp van Hadoop-hulpprogramma's zoals DistCp, kunt u tijdens de onlinemigratie volledige werking van uw bedrijfssystemen onderhouden met WANdisco LiveData voor Azure. Houd uw big data-omgevingen actief, zelfs wanneer ze hun gegevens verplaatsen naar Azure.
Belangrijkste voordelen van WANdisco LiveData Platform voor Azure
WANdisco LiveData Platform voor het wide area-netwerk van Azure zorgt voor consensusengine voor gegevensconsistentie en voert realtime gegevensreplicatie op schaal uit. Zie de volgende video voor meer informatie:
De belangrijkste voordelen van het platform zijn onder andere:
Gegevensnauwkeurigheid: End-to-end-validatie van gegevens voorkomt gegevensverlies en zorgt ervoor dat overgedragen gegevens geschikt zijn voor gebruik.
Gegevensconsistentie: zorg ervoor dat gegevensvolumes automatisch consistent blijven tussen omgevingen, zelfs wanneer ze doorlopend worden gewijzigd.
Gegevensefficiëntie: gegevensvolumes continu overdragen met volledige controle over het bandbreedteverbruik.
Uitvaltijd uitvaltijd: maak, wijzig, lees en verwijder gegevens met andere toepassingen tijdens de migratie, zonder dat zakelijke activiteiten tijdens gegevensoverdracht naar Azure hoeven te worden onderbroken. Ga door met het gebruik van toepassingen, analyse-infrastructuur, opnametaken en andere verwerking.
Eenvoudig gebruik: gebruik de Azure-integratie van het platform om geautomatiseerde migraties te maken, configureren, plannen en bij te houden. Daarnaast configureert u indien nodig selectieve gegevensreplicatie, Hive-metagegevens, gegevensbeveiliging en vertrouwelijkheid.
Belangrijkste functies van WANdisco LiveData Platform voor Azure
De belangrijkste functies van het platform zijn onder andere:
Migratie van metagegevens: naast HDFS-gegevens migreert u metagegevens (van Hive en andere opslagen) met LiveData Migrator voor Azure.
Geplande overdracht: Gebruik LiveData Migrator voor Azure om te bepalen en automatiseren wanneer gegevensoverdracht wordt gestart, waardoor wijzigingen handmatig naar gegevens moeten worden gemigreerd.
Kerberos: LiveData Migrator voor ondersteuning voor Azure s Kerberized-clusters.
Uitsluitingssjablonen: maak regels in LiveData Migrator voor Azure om te voorkomen dat bepaalde bestandsgrootten of bestandsnamen (gedefinieerd met glob-patronen) naar uw doelopslag worden gemigreerd. Maak uitsluitingssjablonen in Azure Portal of met de CLI en pas deze toe op een willekeurig aantal migraties.
Padtoewijzingen: definieer alternatieve doelpaden voor specifieke doelbestandssystemen, die automatisch overgedragen gegevens verplaatsen naar mappen die u opgeeft.
Bandbreedtebeheer: configureer de maximale hoeveelheid netwerkbandbreedte die LiveData Migrator voor Azure kan gebruiken om bandbreedte via verbruik te voorkomen.
Uitsluitingen: Definieer sjabloonquery's die voorkomen dat bestanden en mappen die voldoen aan de criteria, zodat u selectief gegevens kunt migreren vanuit uw bronsysteem.
Metrische gegevens: bekijk details over gegevensoverdracht in LiveData Migrator voor Azure, zoals bestanden die in de loop van de tijd zijn overgedragen, uitgesloten paden, items die niet konden worden overgedragen en meer.
Big data sneller migreren zonder risico
De eerste service die is opgenomen in WANdisco LiveData Platform voor Azure is LiveData Migrator voor Azure, waarmee gegevens worden gemigreerd van on-premises omgevingen naar Azure Storage. Zodra u LiveData Migrator hebt geïmplementeerd in uw on-premises Hadoop-cluster, wordt automatisch de beste configuratie voor uw bestandssysteem gemaakt. Geef hier de Kerberos-details op voor het systeem. LiveData Migrator voor Azure is vervolgens gereed om gegevens te migreren naar Azure Storage.
Bekijk deze vereisten voordat u met LiveData Migrator voor Azure begint.
Ga als volgt te werk om een migratie uit te voeren:
In de Azure CLI:
- Registreer u voor de WANdisco-resourceprovider in de Azure CLI door deze uit te voeren
az provider register --namespace Wandisco.Fusion --consent-to-permissions
. - Accepteer de factureringsvoorwaarden naar gebruik van LiveData Platform door deze uit te voeren
az vm image terms accept --offer ldma --plan metered-v1 --publisher Wandisco --subscription <subscriptionID>
.
- Registreer u voor de WANdisco-resourceprovider in de Azure CLI door deze uit te voeren
Implementeer een LiveData Migrator-exemplaar vanuit Azure Portal naar uw on-premises Hadoop-cluster. (U hoeft geen wijzigingen aan te brengen in het cluster of het cluster opnieuw op te starten.)
Notitie
WANdisco LiveData Migrator voor Azure biedt de mogelijkheid om een Hadoop-testcluster te maken.
Configureer kerberos-details, indien van toepassing.
Definieer het doelopslagaccount met Azure Data Lake Storage.
Definieer de locatie van de gegevens die u wilt migreren, bijvoorbeeld:
/user/hive/warehouse
.Start de migratie.
Bewaak de voortgang van uw migratie via standaard Azure-hulpprogramma's, waaronder de Azure CLI en Azure Portal.
Bidirectioneel gegevens repliceren onder actieve wijziging met LiveData Plane voor Azure
De tweede service die is opgenomen in het LiveData Platform is LiveData Plane voor Azure. LiveData Plane maakt gebruik van de coördinatie-engine van WANdisco om gegevens consistent te houden in veel on-premises Hadoop-clusters en Azure Storage door op intelligente wijze wijzigingen toe te passen op gegevens op alle systemen, zodat het risico op gegevensconflicten op verschillende gebruikspunten wordt verwijderd.
Houd na de eerste migratie uw gegevens consistent met LiveData Plane voor Azure:
Implementeer LiveData Plane voor Azure on-premises en in Azure, te beginnen vanuit Azure Portal. Er zijn geen toepassingswijzigingen vereist.
Configureer replicatieregels die betrekking hebben op de gegevenslocaties die u consistent wilt houden, bijvoorbeeld:
/user/contoso/sales/region/WA
.Voer toepassingen uit die gegevens op beide locaties openen en wijzigen naar behoefte.
LiveData Plane voor Azure repliceert consistent gegevenswijzigingen in alle omgevingen zonder aanzienlijke gevolgen voor de clusterbewerking of toepassingsprestaties.
Teststation of proefversie
Op de pagina LiveData Platform voor Marketplace van Azure hebt u twee opties:
Met de knop Nu downloaden wordt de service in uw abonnement gestart. Van daaruit kunt u uw eigen Hadoop-cluster of het proefcluster van WANdisco gebruiken.
Selecteer Test Drive om LiveData Migrator voor Azure te testen in een omgeving die vooraf is geconfigureerd en voor u wordt gehost. Hierdoor kunt u LiveData Migrator voor Azure uitproberen voordat u deze toevoegt aan uw abonnement, zonder kosten of risico's voor uw gegevens.