Notes
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Cet article répond aux questions fréquemment posées sur les connecteurs managés dans Databricks Lakeflow Connect. Pour connaître les questions fréquentes (FAQ) spécifiques au connecteur, consultez la documentation de votre connecteur.
Quels connecteurs managés Databricks prend-il en charge ?
Lakeflow Connect offre des connecteurs managés pour Salesforce, SQL Server, ServiceNow et Google Analytics. Pour informer la feuille de route ou obtenir un accès anticipé aux connecteurs Private Preview, contactez votre équipe de compte.
Quelles interfaces les connecteurs managés prennent-ils en charge ?
Tous les connecteurs managés prennent en charge la création de pipelines à l’aide des API Databricks et des bundles de ressources Databricks. La plupart des connecteurs offrent également la création de pipelines dans l’interface utilisateur.
Le tableau suivant résume les interfaces prises en charge par chaque connecteur.
Connecteur | Création de pipelines basés sur l’interface utilisateur | Création de pipelines basés sur l’API | Packs de ressources Databricks |
---|---|---|---|
Salesforce | Oui | Oui | Oui |
Jour ouvrable | Non | Oui | Oui |
Serveur SQL | Oui | Oui | Oui |
ServiceNow | Oui | Oui | Oui |
Google Analytics 4 (GA4) | Oui | Oui | Oui |
SharePoint | Non | Oui | Oui |
Comment les connecteurs managés gèrent-ils l’évolution du schéma ?
Tous les connecteurs managés gèrent automatiquement les colonnes nouvelles et supprimées, sauf si vous choisissez explicitement les colonnes que vous souhaitez ingérer.
- Lorsqu’une nouvelle colonne apparaît dans la source, Databricks l’ingère automatiquement lors de l’exécution suivante de votre pipeline. Pour toute ligne dans la colonne qui était présente avant la modification du schéma, Databricks laisse la valeur vide. Toutefois, vous pouvez refuser l’ingestion automatisée de colonnes en répertoriant des colonnes spécifiques à ingérer via l’API ou en désactivant les futures colonnes de l’interface utilisateur.
- Lorsqu’une colonne est supprimée de la source, Databricks ne la supprime pas automatiquement. Au lieu de cela, le connecteur utilise une propriété de table pour définir la colonne supprimée sur « inactive » dans la destination. Si une autre colonne apparaît ultérieurement portant le même nom, le pipeline échoue. Dans ce cas, vous pouvez déclencher une actualisation complète de la table ou supprimer manuellement la colonne inactive.
De même, les connecteurs peuvent gérer les tables nouvelles et supprimées. Si vous ingérez un schéma entier, Databricks ingère automatiquement toutes les nouvelles tables, sauf si vous vous désinscrivez. Et si une table est supprimée dans la source, le connecteur le définit comme inactive
à destination. Notez que si vous choisissez d’ingérer un schéma entier, vous devez examiner les limitations relatives au nombre de tables par pipeline pour votre connecteur.
Les modifications de schéma supplémentaires dépendent de la source. Par exemple, le connecteur Salesforce traite les renommages de colonnes comme des suppressions et des ajouts de colonnes et réalise automatiquement la modification, selon le comportement décrit ci-dessus. Toutefois, le connecteur SQL Server nécessite une actualisation complète des tables affectées pour poursuivre l’ingestion.
Le tableau suivant récapitule les modifications de schéma qui peuvent être gérées automatiquement par chaque connecteur :
Connecteur | Colonnes nouvelles et supprimées | Modifications du type de données | Renommages de colonne | Nouvelles tables |
---|---|---|---|---|
Salesforce | Oui | Non | Oui : traité comme une nouvelle colonne (nouveau nom) et une colonne supprimée (ancien nom). Ne nécessite pas d’actualisation complète. | Oui : si vous ingérez l’intégralité du schéma. |
Jour ouvrable | Oui | Non | Oui : traité comme une nouvelle colonne (nouveau nom) et une colonne supprimée (ancien nom). Ne nécessite pas d’actualisation complète. | Sans objet |
Serveur SQL | Oui | Non | Oui : la colonne est renommée. Nécessite une actualisation complète. | Oui : si vous ingérez l’intégralité du schéma. |
ServiceNow | Oui | Non | Oui : traité comme une nouvelle colonne (nouveau nom) et une colonne supprimée (ancien nom). Ne nécessite pas d’actualisation complète. | Oui : si vous ingérez l’intégralité du schéma. |
Google Analytics 4 (GA4) | Oui | Non | Oui : traité comme une nouvelle colonne (nouveau nom) et une colonne supprimée (ancien nom). Ne nécessite pas d’actualisation complète. | Oui : si vous ingérez l’intégralité du schéma. |
Puis-je personnaliser les connecteurs managés ?
Vous pouvez choisir les objets ingérés, la destination, la planification, les autorisations, les notifications, etc. Vous ne pouvez pas personnaliser le processus d’ingestion lui-même, car ces connecteurs sont entièrement gérés. Pour une personnalisation supplémentaire, vous pouvez utiliser des pipelines déclaratifs Lakeflow ou une diffusion en continu structurée.
Quelle est la différence entre les connecteurs managés, Lakehouse Federation, et Delta Sharing ?
Lakehouse Federation vous permet d’interroger des sources de données externes sans déplacer vos données. Delta Sharing vous permet de partager de manière sécurisée des données dynamiques entre plusieurs plateformes, clouds, et régions.
Lorsque vous avez le choix entre les connecteurs managés, la Fédération Lakehouse et Delta Sharing, choisissez Delta Sharing pour les scénarios suivants :
- Limite de la duplication des données.
- Interrogation des données les plus récentes possibles.
Choisissez Lakehouse Federation pour les scénarios suivants :
- Les rapports ad hoc ou les travaux de preuve de concept sur vos pipelines ETL.
Quelle est la différence entre les connecteurs managés et Auto Loader ?
Les connecteurs managés vous permettent d’ingérer de manière incrémentielle des données à partir d’applications SaaS telles que Salesforce et de bases de données telles que SQL Server. Auto Loader est un connecteur pour le stockage d’objets cloud qui vous permet d’ingérer de manière incrémentielle des fichiers à mesure qu’ils arrivent dans S3, ADLS, et GCS. Il est compatible avec Structured Streaming et les pipelines déclaratifs de Lakeflow, mais n’offre pas de pipelines d’ingestion complètement gérés.
Les connecteurs managés peuvent-ils réécrire dans la source de données ?
Non. Si vous êtes intéressé par cette fonctionnalité, contactez votre équipe de compte.
Les connecteurs managés sont-ils disponibles dans toutes les régions ?
Non. Consultez la disponibilité des fonctionnalités de calcul sans serveur.
Un pipeline peut-il écrire dans plusieurs schémas de destination ?
Cette fonctionnalité est prise en charge dans l’API Lakeflow Connect pour tous les connecteurs SaaS managés, tels que Salesforce, Workday et ServiceNow.
Si vous choisissez d’utiliser cette fonctionnalité, votre pipeline devient API uniquement. Vous ne pouvez pas le modifier dans l’interface utilisateur.
Puis-je modifier le nom d’une table que j’importe ?
Cette fonctionnalité est prise en charge dans l’API Lakeflow Connect pour tous les connecteurs managés.
Si vous choisissez d’utiliser cette fonctionnalité, votre pipeline devient API uniquement. Vous ne pouvez pas modifier les pipelines API uniquement dans l’interface utilisateur.
Pour chaque table que vous souhaitez renommer, ajoutez la destination_table
configuration avec le nom de votre table souhaitée.
Que se passe-t-il si un pipeline est toujours en cours d’exécution (mise à jour N) lorsque la prochaine mise à jour est planifiée pour s’exécuter (mise à jour N+1) ?
Databricks ignore la mise à jour N+1 et récupère la mise à jour N+2, en supposant que la mise à jour N est terminée dans le temps.
Que se passe-t-il pour les tables de destination lorsqu’un des pipelines d'ingestion est supprimé ?
Les tables de destination sont supprimées lorsque le pipeline d’ingestion est supprimé.
Comment les connecteurs managés sont-ils facturés ?
Les connecteurs managés ont un modèle tarifaire basé sur le calcul.
Les sources SaaS telles que Salesforce et Workday, qui s'exécutent exclusivement sur une infrastructure sans serveur, entraînent des frais de DBU pour les pipelines déclaratifs Lakeflow sans serveur.
Pour les sources de base de données telles que SQL Server, les passerelles d’ingestion peuvent s’exécuter en mode classique ou en mode serverless en fonction de la source, et les pipelines d’ingestion s’exécutent sur une infrastructure serverless. Par conséquent, vous pouvez recevoir les frais de DBU des pipelines déclaratifs Lakeflow classiques et sans serveur.
Pour des détails sur les tarifs, consultez la page de tarification des pipelines déclaratifs Lakeflow.
Puis-je activer le flux de données de modification Delta Lake sur une table cible ?
Cette option est activée pour toutes les tables cibles.
Questions fréquentes (FAQ) spécifiques au connecteur
Pour connaître les questions fréquentes (FAQ) spécifiques au connecteur, consultez la documentation de votre connecteur :