Migrer des données vers un compte Azure Cosmos DB for Apache Cassandra à l’aide de Striim

S’APPLIQUE À : Cassandra

L’image Striim dans la place de marché Azure fournit un déplacement continu des données en temps réel à partir d’entrepôts de données et de bases de données vers Azure. Lors du déplacement des données, vous pouvez effectuer la dénormalisation en ligne, la transformation des données, activer les analyses en temps réel et les scénarios de création de rapports de données. La prise en main de Striim pour déplacer continuellement des données d’entreprise vers Azure Cosmos DB for Apache Cassandra est simple. Azure fournit une offre de place de marché qui facilite le déploiement de Striim et la migration des données vers Azure Cosmos DB.

Cet article explique comment utiliser Striim pour migrer des données depuis une base de données Oracle vers un compte Azure Cosmos DB for Apache Cassandra.

Prérequis

  • Si vous n’avez pas d’abonnement Azure, créez un compte gratuit avant de commencer.

  • Vous devez disposer d’une base de données Oracle qui contient des données et s’exécute localement.

Déployer la solution de place de marché Striim

  1. Connectez-vous au portail Azure.

  2. Sélectionnez Créer une ressource, puis recherchez Striim dans la place de marché Azure. Sélectionnez la première option, puis Créer.

    Rechercher l’élément de la place de marché Striim

  3. Ensuite, entrez les propriétés de configuration de l’instance Striim. L’environnement Striim est déployé sur un ordinateur virtuel. Dans le volet De base, entrez le nom d’utilisateur de la machine virtuelle et le mot de passe de la machine virtuelle (ce mot de passe est utilisé pour la connexion SSH à la machine virtuelle). Sélectionnez votre Abonnement, votre Groupe de ressources et les Détails de l’emplacement où vous souhaitez déployer Striim. Quand vous avez terminé, sélectionnez OK.

    Configurer les paramètres de base pour Striim

  4. Dans le volet Paramètres du cluster Striim, choisissez le type de déploiement Striim et la taille de la machine virtuelle.

    Paramètre Valeur Description
    Type de déploiement Striim Standalone Striim peut s’exécuter dans un type de déploiement Autonome ou Cluster. Le mode Autonome déploie le serveur Striim sur une seule machine virtuelle et vous pouvez sélectionner la taille des machines virtuelles en fonction de votre volume de données. Le mode Cluster déploie le serveur Striim sur deux machines virtuelles ou plus selon la taille sélectionnée. Les environnements de cluster avec plus de 2 nœuds offrent une haute disponibilité et un basculement automatiques.

    Dans ce tutoriel, vous pouvez sélectionner l’option Autonome. Utilisez la taille de machine virtuelle par défaut « Standard_F4s ».
    Nom du cluster Striim <Striim_cluster_Name> Nom du cluster Striim.
    Mot de passe du cluster Striim <Striim_cluster_password> Mot de passe pour le cluster.

    Une fois le formulaire rempli, sélectionnez OK pour continuer.

  5. Dans le volet Paramètres d’accès à Striim, configurez l'Adresse IP publique (choisissez les valeurs par défaut), le Nom de domaine pour Striim et le Mot de passe d’administrateur que vous souhaitez utiliser pour vous connecter à l’interface utilisateur Striim. Configurez un réseau virtuel et un sous-réseau (choisissez les valeurs par défaut). Après avoir renseigné les détails, sélectionnez OK pour continuer.

    Paramètres d’accès à Striim

  6. Azure validera le déploiement et s’assurera que tout fonctionne correctement. Ka validation prend quelques minutes. Une fois la validation terminée, sélectionnez OK.

  7. Enfin, passez en revue les conditions d’utilisation et sélectionnez Créer pour créer votre instance Striim.

Configurer la base de données source

Dans cette section, vous configurez la base de données Oracle en tant que source du déplacement des données. Le serveur Striim est fourni avec le pilote Oracle JDBC qui est utilisé pour se connecter à Oracle. Pour lire les modifications de votre base de données Oracle source, vous pouvez utiliser l’API LogMiner ou XStream. Le pilote Oracle JDBC est présent dans le chemin de classe Java de Striim pour la lecture, l’écriture ou la conservation des données à partir de la base de données Oracle.

Configurer la base de données cible

Dans cette section, vous allez configurer le compte Azure Cosmos DB for Apache Cassandra en tant que cible du déplacement des données.

  1. Créez un compte Azure Cosmos DB for Apache Cassandra à l’aide du Portail Microsoft Azure.

  2. Accédez au volet Explorateur de données de votre compte Azure Cosmos. Sélectionnez Nouvelle table pour créer un conteneur. Nous partons du principe que vous migrez les données products (produits) et orders (commandes) depuis la base de données Oracle vers Azure Cosmos DB. Créez un espace de clés nommé StriimDemo avec un conteneur Orders. Approvisionnez le conteneur avec 1000 unités de requête (cet exemple utilise 1000 unités de requête, mais vous devez utiliser le débit estimé pour votre charge de travail) et /ORDER_ID comme clé primaire. Ces valeurs varient en fonction de vos données sources.

    Créer une API pour un compte Cassandra

Configurer Oracle pour le flux de données Azure Cosmos DB

  1. Accédez à l’instance Striim que vous avez déployée dans le Portail Microsoft Azure. Sélectionnez le bouton Se connecter dans la barre de menus supérieure, puis sous l’onglet SSH, copiez l’URL dans le champ Login using VM local account (Connexion à l’aide du compte local de machine virtuelle).

    Récupérer l’URL SSH

  2. Ouvrez une nouvelle fenêtre de terminal et exécutez la commande SSH que vous avez copiée à partir du Portail Microsoft Azure. Cet article utilise le terminal dans un macOS. Toutefois, vous pouvez suivre les instructions de la même manière avec un client SSH sur une machine Windows. Lorsque vous y êtes invité tapez oui pour continuer, puis entrez le mot de passe que vous avez défini pour la machine virtuelle à l’étape précédente.

    Se connecter à la machine virtuelle Striim

  3. À partir de la même fenêtre de terminal, redémarrez le serveur Striim en exécutant les commandes suivantes :

    systemctl stop striim-node
    systemctl stop striim-dbms
    systemctl start striim-dbms
    systemctl start striim-node
    
  4. Le démarrage de Striim prend une minute. Si vous souhaitez afficher l’état, exécutez la commande suivante :

    tail -f /opt/striim/logs/striim-node.log
    
  5. À présent, revenez à Azure et copiez l’adresse IP publique de votre machine virtuelle Striim.

    Copier l’adresse IP de l’ordinateur virtuel Striim

  6. Pour accéder à l’interface utilisateur web de Striim, ouvrez un nouvel onglet dans un navigateur et copiez l’adresse IP publique, puis procédez comme suit : 9080. Connectez-vous en utilisant le nom d’utilisateur admin, ainsi que le mot de passe d’administrateur que vous avez spécifié dans le Portail Microsoft Azure.

    Connectez-vous à Striim

  7. Vous arrivez à présent sur la page d’hébergement de Striim. Il existe trois volets différents : Dashboards (Tableaux de bord), Apps (Applications) et SourcePreview (Aperçu de la source). Le volet Dashboards vous permet de déplacer des données en temps réel et de les visualiser. Le volet Apps contient vos pipelines de données de streaming ou de flux de données. Dans la partie droite de la page se trouve SourcePreview, où vous pouvez afficher un aperçu de vos données avant de les déplacer.

  8. Sélectionnez le volet Apps, nous nous concentrerons sur ce volet pour l’instant. Vous pouvez utiliser un grand nombre d’exemples d’applications pour en savoir plus sur Striim. Toutefois, dans cet article, vous allez créer votre propre application. Sélectionnez le bouton Add App (Ajouter une application) dans le coin supérieur droit.

    Ajouter l’application Striim

  9. Il existe plusieurs façons de créer des applications Striim. Sélectionnez Commencer à partir de zéro pour ce scénario.

    Commencer l’application à partir de zéro

  10. Donnez un nom significatif à votre application, par exemple oraToCosmosDB, puis sélectionnez Save (Enregistrer).

    Créer une application

  11. Vous allez accéder au concepteur de flux, où vous pouvez faire glisser et déposer des connecteurs prêts à l’emploi pour créer vos applications de streaming. Tapez Oracle dans la barre de recherche, puis glissez-déplacez la source Oracle CDC sur le canevas de l’application.

    Source Oracle CDC

  12. Entrez les propriétés de configuration de la source de votre instance Oracle. Le nom de la source est simplement une convention d’affectation de noms pour l’application Striim. vous pouvez utiliser un nom tel que src_onPremOracle. Entrez également d’autres détails comme le type d’adaptateur, l’URL de connexion, le nom d’utilisateur, le mot de passe et le nom de la table. Cliquez sur Save (Enregistrer) pour continuer.

    Configurer les paramètres de la source

  13. Maintenant, cliquez sur l’icône en forme de vague du flux pour établir une connexion à l’instance d’Azure Cosmos DB cible.

    Se connecter à la cible

  14. Avant de configurer la cible, vérifiez que vous avez ajouté un certificat racine Baltimore à l’environnement Java de Striim.

  15. Entrez les propriétés de configuration de votre instance d’Azure Cosmos DB cible, puis sélectionnez Save (Enregistrer) pour continuer. Voici les paramètres clés à noter :

    • Adapter (Adaptateur) - Utilisez DatabaseWriter. Quand vous écrivez dans Azure Cosmos DB for Apache Cassandra, DatabaseWriter est obligatoire. Le pilote Cassandra 3.6.0 est fourni en bundle avec Striim. Si DatabaseWriter dépasse le nombre d’unités de requête provisionnées sur votre conteneur Azure Cosmos DB, l’application plante.

    • Connection URL (URL de connexion) - Spécifiez votre URL de connexion JDBC Azure Cosmos DB. L’URL présente le format jdbc:cassandra://<contactpoint>:10350/<databaseName>?SSL=true

    • Username (Nom d’utilisateur) - Spécifiez le nom de votre compte Azure Cosmos DB.

    • Password (Mot de passe) - Spécifiez la clé primaire de votre compte Azure Cosmos DB.

    • Tables - Les tables cibles doivent avoir des clés primaires, et les clés primaires ne peuvent pas être mises à jour.

    Capture d'écran représentant les propriétés cibles configurables.

    Configurer les propriétés cibles

  16. À présent, nous allons exécuter l’application Striim. Dans la barre de menus supérieure ,sélectionnez Created (Créées), puis Deploy App (Déployer l’application). Dans la fenêtre de déploiement, vous pouvez spécifier si vous souhaitez exécuter certaines parties de votre application sur des parties spécifiques de votre topologie de déploiement. Étant donné que nous exécutons une topologie de déploiement simple via Azure, nous allons utiliser l’option par défaut.

    Déployer l’application

  17. Nous allons maintenant afficher un aperçu du flux pour voir les données transitant par Striim. Cliquez sur l’icône en forme de vague, puis sur l’icône représentant un œil située à côté. Après le déploiement, vous pouvez afficher un aperçu du flux pour voir le flux de données. Sélectionnez l'icône en forme de vague avec un œil à côté. Sélectionnez le bouton Deployed (Déployé) dans la barre de menus supérieure, puis sélectionnez Start App (Démarrer l’application).

    Démarrer l’application

  18. En utilisant un lecteur CDC (Change Data Capture) (Capture des changements de données), Striim ne sélectionne que les nouvelles modifications apportées à la base de données. Si des données transitent par vos tables sources, vous les verrez. Toutefois, étant donné qu’il s’agit d’une table d’exemple, la source n’est connectée à aucune application. Si vous utilisez un exemple de générateur de données, vous pouvez insérer une chaîne d’événements dans votre base de données Oracle.

  19. Vous verrez des données transitant par la plateforme Striim. Striim récupère également toutes les métadonnées associées à votre table, ce qui est utile pour surveiller les données et vous assurer que les données se trouvent sur la cible appropriée.

    Configurer le pipeline CDC

  20. Enfin, connectez-vous à Azure et accédez à votre compte Azure Cosmos DB. Actualisez l’Explorateur de données : vous pouvez voir que les données sont arrivées.

En utilisant la solution Striim dans Azure, vous pouvez migrer en continu des données vers des Azure Cosmos DB à partir de diverses sources telles que Oracle, Cassandra, MongoDB, etc. vers Azure Cosmos DB. Pour en savoir plus, visitez le site web Striim, téléchargez une version d’essai gratuite de 30 jours de Striim, et pour tout problème de configuration du chemin de migration lié à Striim, effectuez une demande de support.

Étapes suivantes