Partager via


Déployer et configurer les sources des données de santé dans les solutions de données de santé (version préliminaire)

[Cet article fait partie de la documentation en version préliminaire et peut faire l’objet de modifications.]

Les Sources des données de santé offrent des pipelines de données prêts à l’emploi, conçus pour structurer efficacement les données à des fins d’analyse et de modélisation IA/Machine Learning. Vous pouvez configurer la fonctionnalité Sources des données de santé après avoir déployé les solutions de données de santé (version préliminaire) dans votre espace de travail Fabric.

Note

La fonctionnalité Sources des données de santé est nécessaire pour exécuter d’autres fonctionnalités des solutions de données de santé (version préliminaire). Assurez-vous de configurer au préalable cette fonctionnalité avant d’essayer de déployer les autres fonctionnalités.

Conditions préalables au déploiement

déployer Sources des données de santé

Pour déployer des Sources des données de santé dans votre espace de travail, procédez comme suit :

  1. Accédez à la page d’accueil des solutions de données de santé sur Fabric.

  2. Sélectionnez la vignette Sources des données de santé.

    Une capture d’écran affichant vignette Sources des données de santé.

  3. Sur la page des fonctionnalités, sélectionnez Déployer sur l’espace de travail.

    Une capture d’écran montrant comment déployer la capacité sur votre espace de travail.

  4. Le déploiement peut prendre plusieurs minutes. Évitez de fermer l’onglet ou le navigateur pendant que le déploiement est en cours. En attendant, vous pouvez travailler dans un autre onglet.

  5. Une fois le déploiement terminé, vous serez averti. Sélectionnez le bouton Gérer les capacités dans la barre de messages pour accéder à la page de gestion des capacités des Sources des données de santé. Ici, vous pouvez afficher, configurer et gérer les artefacts déployés suivants (l’image est uniquement à des fins de représentation) :

    Une capture d’écran montrant artefacts.

Vous pouvez sélectionner chaque artefact Lakehouse et Notebook pour l’ouvrir et examiner les détails.

Configurer le notebook de configuration globale

Le notebook healthcare#_msft_config_notebook déployé avec les sources des données de santé est le notebook de configuration globale qui vous permet de configurer et de gérer la configuration pour toutes les transformations de données dans les solutions de données de santé (version préliminaire). Il comprend des tâches telles que la configuration des paramètres de l’espace de travail et l’installation de packages essentiels pour le traitement des données.

Fonctionnalités

  • Résolution dynamique OneLake point de terminaison : le script résout par programme le OneLake point de terminaison en fonction des environnements d’exécution.
  • Validation du runtime Fabric : garantit la compatibilité avec le runtime Fabric pris en charge pour la session Spark.
  • Paramètres configurables : livré avec un ensemble de configuration prédéfini.

configuration

Vous devez terminer la configuration de healthcare#_msft_config_notebook avant d’exécuter l’un des pipelines ou notebooks inclus avec les fonctionnalités des solutions de données de santé (version préliminaire). Vous devez mettre à jour tous les paramètres obligatoires une seule fois dans ce notebook de configuration globale.

Voici les principaux paramètres de configuration pour ce notebook :

  • Configuration espace de travail : spécifie les noms de l’espace de travail et de la solution, ainsi que le OneLake point de terminaison. Utilisez une convention de dénomination cohérente (nom ou GUID) pour les identifiants d’espace de travail et de solution.

    • workspace_name : Identifiant de l’espace de travail, soit son GUID, soit son nom.
    • solution_name : Identifiant de l’artefact de charge de travail de soins de santé, au format ArtifactName.ArtifactType ou ArtifactId.
    • one_lake_endpoint : Identifiant du OneLake point de terminaison.
  • Lakehouse/Database Config : informations sur les bases de données bronze, argent et OMOP . Utilisez une convention d’affectation de noms cohérente (nom ou GUID) telle qu’elle est utilisée dans le Configuration de l’espace de travail section.

    • bronze_database_name: identificateur de la lakehouse bronze.
    • silver_database_name: identificateur de la lakehouse argent.
    • omop_database_name: OMOP ou l’identifiant or Lakehouse.
  • Configuration des secrets et des clés : informations secrètes telles que le nom du coffre de clés et la clé d’informations sur l’application.

    • kv_name : spécifie le nom du service Key Vault contenant tous les secrets et clés nécessaires à l’exécution des pipelines de solutions de données de santé (version préliminaire). Cette valeur doit pointer vers le service de coffre de clés déployé avec le Solutions de données de santé en Microsoft Fabric Offre Azure Marketplace.
  • Diverse configuration : Autre configuration supplémentaire, comme savoir s’il faut ou non ignorer l’installation du package.

  • Configuration de la charge de travail : Vous pouvez basculer cette valeur pour la définir sur True ou False. Définir la valeur sur True utilise le dossier de charge de travail de l’artefact et définit la valeur sur False utilise Lakehouse pour les exemples de données et la configuration des transformations.

Lorsque vous approvisionnez ce notebook, les paramètres sont automatiquement configurés. Cependant, vous devez fournir la valeur kv_name dans la section Configuration des secrets et des clés, comme expliqué dans Configurer le service d’exportation FHIR.

Important

N’exécutez pas ce notebook directement ; il est exécuté dans d’autres notebooks lors de la configuration.

Configuration supplémentaire

Le déploiement de fondations de données de santé déploie également les Lakehouses et notebooks suivants dans votre environnement en plus des soins de santé#_msft_config_notebook. Vous n’avez pas besoin d’apporter des modifications de configuration spécifiques à ces artefacts après l’approvisionnement, sauf si vous souhaitez utiliser une configuration ou des données personnalisées.

Lakehouses

Le déploiement de fondations de données de santé provisionne les Lakehouses suivants dans votre environnement :

  • healthcare#_msft_bronze
  • healthcare#_msft_silver
  • healthcare#_msft_gold_omop

Les lakehouses vous permettent de :

  • Téléchargee des données depuis votre ordinateur local.
  • Préparer, nettoyer, transformer et ingérer des données.
  • Ingérer des données à grande échelle et planifier des flux de travail de données.
  • Transformer et ingérer des données à l’aide du code Apache Spark.
  • Accéder aux données qui résident dans un lac externe.
  • Importer automatiquement des tableaux remplis d’exemples de données.

Le provisionnement de Lakehouse crée un outil d’analyse SQL point de terminaison pour les requêtes et un modèle sémantique par défaut Power BI pour un reporting plus rapide qui se met à jour avec toutes les tables ajoutées à Lakehouse.

Blocs-notes

En plus des soins de santé#_msft_config_notebook, Le déploiement de fondations de données de santé déploie également les Lakehouses et notebooks suivants dans votre environnement.

  • healthcare#_msft_raw_bronze_ingestion
  • healthcare#_msft_bronze_silver_flatten
  • healthcare#_msft_silver_sample_flatten_extensions_utility

healthcare#_msft_raw_bronze_ingestion

Dans l’architecture médaillon des solutions de données de santé (version préliminaire), les données sont traitées à l’aide d’une approche multicouche. La première couche est bronze qui maintient l’état brut du source de données. La deuxième couche est argent qui représente une version validée et enrichie des données. La troisième et dernière couche est l’ or qui est hautement raffiné et agrégé. Dans ce notebook, nous ingérons des données dans des tables delta du healthcare#_msft_bronze lakehouse.

La structure du notebook est la suivante :

  • Charger les données et configurer : commencez par charger les détails de configuration nécessaires que vous pouvez spécifier.
  • Appeler BronzeIngestionService : après avoir configuré les conditions préalables, utilisez le module BronzeIngestionService dans la bibliothèque de solutions de données de santé (version préliminaire) pour ingérer les données. Par défaut, le service est configuré pour utiliser les exemples de données fournis. Si vous souhaitez utiliser vos propres données FHIR, mettez à jour la source_path_pattern valeur en fonction de l’emplacement de vos données.
  • Vérifier les résultats : affichez les résultats de l’ingestion via un appel à la table nouvellement créée.

Avant d’exécuter ce notebook, assurez-vous d’avoir terminé la configuration du notebook healthcare#_msft_config_notebook en suivant les étapes dans Configurer le notebook de configuration globale.

Voici les paramètres clés du healthcare#_msft_raw_bronze_ingestion notebook :

  • max_files_per_trigger : Nombre maximum de nouveaux fichiers à prendre en compte pour chaque déclencheur. Type de données des valeurs est entier.
  • source_path_pattern : Le modèle à utiliser pour surveiller les dossiers sources. Type de données des valeurs est variable.
    • Valeur par défaut : les chemins de la zone d’atterrissage sous abfss://{workspace_name}@{one_lake_endpoint}/{bronze_database_name}/Files/landing_zone/**/**/**/<resource_name>[^a-zA-Z]*ndjson

healthcare#_msft_bronze_silver_flatten

Dans ce notebook, nous utilisons le module SilverIngestionService de la bibliothèque de solutions de données de santé (version préliminaire) pour aplatir les ressources FHIR dans le lakehouse healthcare#_msft_bronze et ingérer les données résultantes dans le lakehouse healthcare#_msft_silver. Par défaut, vous n’êtes pas censé apporter de modifications à ce bloc-notes. Si vous préférez pointer vers des Lakehouses sources et cibles différentes, vous pouvez modifier les valeurs dans le healthcare#_msft_config_notebook.

Nous vous recommandons de planifier l’exécution de cette tâche de notebook toutes les 4 heures. L’exécution initiale peut ne pas contenir de données à consommer en raison de tâches simultanées et dépendantes, ce qui entraîne une latence. Vous pouvez réduire cette latence en ajustant la fréquence des tâches de la couche supérieure.

healthcare#_msft_silver_sample_flatten_extensions_utility

Les extensions sont des éléments enfants qui représentent plus d’informations et peuvent être présents dans chaque élément d’une ressource. Pour en savoir plus sur l’élément d’extension, consultez Élément d’extension FHIR.

Actuellement, le schéma prend en charge les extensions sous forme de chaînes. Ce bloc-notes fournit des exemples sur la manière d’accéder à ces données d’extension et de les utiliser dans une trame de données. Vous pouvez utiliser les données dans les extensions de deux manières :

  • Utilisez l’utilitaire parse_extension : cet utilitaire est utilisé pour récupérer des champs spécifiques de l’extension de chaîne complète.
  • Utiliser le schéma d’extension : utilisez le schéma d’extension pour analyser l’intégralité de l’extension de chaîne.

Avant d’utiliser ce notebook, assurez-vous d’avoir terminé l’ingestion bronze et argent, car ce notebook utilise la base de données argent dans les exemples.

La structure du notebook est la suivante :

  • Charger les données et configurer : commencez par charger les détails de configuration nécessaires que vous pouvez spécifier.
  • Analyser l’extension à l’aide de l’utilitaire parse_extension : utilisez l’utilitaire parse_extension pour analyser une extension et récupérer des champs individuels.
  • Analyser l’extension à l’aide du schéma d’extension fourni : utilisez le schéma d’extension fourni pour analyser toute l’extension de chaîne.

Voici les paramètres clés de l’utilitaire parse_extension :

  • extension : La colonne d’extension de chaîne complète.
  • urlList : une liste d’URL séparées par des virgules. Chaque URL séparée par des virgules représente une profondeur de niveau imbriquée.
  • value : URL spécifiée de la valeur à récupérer.
  • field : une liste de champs séparés par des virgules dans le cas où la valeur est un type complexe. Si vous sélectionnez plusieurs champs, ceux-ci sont concaténés avec le jeton <->.