Editar

Share via


Pipeline de medicina de precisão com genomas

Armazenamento do Blobs do Azure
Fábrica de dados do Azure
Armazenamento do Azure Data Lake
Azure Databricks
Azure Microsoft Genomics

Este artigo apresenta uma solução para análise genômica e relatórios. Os processos e os resultados são apropriados para cenários de medicina de precisão ou áreas de assistência médica que usam a criação de perfis genéticos.

Arquitetura

Architecture diagram showing how information flows through a genomics analysis and reporting pipeline.

O diagrama contém duas caixas. A primeira, à esquerda, tem o rótulo Azure Data Factory para orquestração. A segunda caixa tem as exibições do rótulo do médico. A primeira caixa contém várias caixas menores que representam dados ou vários componentes do Azure. As setas conectam as caixas e os rótulos numerados nas setas correspondem às etapas numeradas no texto do documento. Duas setas fluem entre as caixas, terminando na caixa de visualizações do médico. Uma seta aponta para um ícone de médico. O outro aponta para um ícone de Power BI.

Baixe um Arquivo Visio dessa arquitetura.

Workflow

O Azure Data Factory orquestra o fluxo de trabalho:

  1. O Data Factory transfere o arquivo de exemplo inicial para o Armazenamento de Blobs do Azure. O arquivo está no formato FASTQ.

  2. O Microsoft Genomics executa a análise secundária no arquivo.

  3. O Microsoft Genomics armazena a saída no Armazenamento de Blobs em um destes formatos:

    • VCF (formato de chamada variante)
    • GVCF (Genomic VCF)
  4. O Jupyter Notebook anota o arquivo de saída. O notebook é executado no Azure Databricks.

  5. O Azure Data Lake Storage armazena o arquivo anotado.

  6. O Jupyter Notebook mescla o arquivo com outros conjuntos de dados e analisa os dados. O notebook é executado no Azure Databricks.

  7. O Data Lake Storage armazena os dados processados.

  8. As APIs de serviços de saúde do Azure empacotam os dados em um pacote de FHIR (Fast Healthcare Interoperability Resources). Em seguida, os dados clínicos inserem o EHR (registro eletrônico de saúde do paciente).

  9. Os médicos visualizam os resultados nos painéis do Power BI.

Componentes

A solução usa os seguintes componentes:

Microsoft Genomics

Microsoft Genomics oferece um pipeline de genômica eficiente e preciso que implementa as melhores práticas do setor. Seu mecanismo de alto desempenho é otimizado para estas tarefas:

  • Lendo arquivos grandes de dados genômicos
  • Processá-los com eficiência em vários núcleos
  • Classificação e filtragem dos resultados
  • Escrevendo os resultados em arquivos de saída

Para maximizar a taxa de transferência, esse mecanismo opera um BWA (alinhador de Burrows-Wheeler) e um chamador de variante GATK (Conjunto de ferramentas de Análise de Genoma). O mecanismo também usa vários outros componentes que comem pipelines de genômica padrão. Exemplos incluem marcação duplicada, recalibração de pontuação de qualidade base e indexação. Em algumas horas, o mecanismo pode processar um único exemplo de genômica em um único servidor de vários núcleos. O processamento começa com leituras brutas. Ele produz leituras alinhadas e chamadas variantes.

Internamente, o controlador Microsoft Genomics gerencia esses aspectos do processo:

  • Distribuindo lotes de genomas entre pools de máquinas na nuvem
  • Mantendo uma fila de solicitações de entrada
  • Distribuindo as solicitações para servidores que executem o mecanismo de genômica
  • Monitorando o desempenho e o progresso dos servidores
  • Avaliando os resultados
  • Garantir que o processamento seja executado de forma confiável e segura em escala, por trás de uma API de serviço Web segura

É possível usar facilmente os resultados do Microsoft Genomics em análise terciária e serviços de aprendizado de máquina. E como o Microsoft Genomics é um serviço de nuvem, você não precisa gerenciar nem atualizar hardware ou software.

Outros componentes

  • O Data Factory é um serviço de integração que funciona com dados de armazenamentos de dados diferentes. É possível usar essa plataforma sem servidor totalmente gerenciada para orquestrar e automatizar fluxos de trabalho. Especificamente, os pipelines do Data Factory transferem dados para o Azure nesta solução. Uma sequência de pipelines dispara cada etapa do fluxo de trabalho.

  • O Armazenamento de Blobs oferece armazenamento otimizado de objetos de nuvem para grandes quantidades de dados não estruturados. Nesse cenário, o Armazenamento de Blobs fornece a zona de destino inicial para o arquivo FASTQ. Esse serviço também funciona como o destino de saída para os arquivos VCF e GVCF gerados pelo Microsoft Genomics. A funcionalidade de camadas no Armazenamento de Blobs fornece uma maneira de arquivar arquivos FASTQ em armazenamento de longo prazo barato após o processamento.

  • O Azure Databricks é uma plataforma de análise de dados. Seus clusters de Spark totalmente gerenciados processam grandes fluxos de dados de várias fontes. Nesta solução, o Azure Databricks fornece os recursos computacionais que o Jupyter Notebook precisa para anotar, mesclar e analisar os dados.

  • O Data Lake Storage é um data lake seguro e escalonável para cargas de trabalho de análise de alto desempenho. Este serviço pode gerenciar vários petabytes de informações enquanto mantém centenas de gigabits de taxa de transferência. Os dados podem ser estruturados, semiestruturados ou não estruturados. Normalmente, ele vem de várias fontes heterogêneas. Nessa arquitetura, o Data Lake Storage a zona de zona de destino para os arquivos anotados e os conjuntos de dados mesclados. Ele também fornece aos sistemas downstream acesso à saída final.

  • O Power BI é uma coleção de serviços de software e aplicativos que exibem informações de análise. É possível usar o Power BI para se conectar e exibir fontes de dados não relacionadas. Nesta solução, é possível preencher os painéis do Power BI com os resultados. Os médicos podem criar visuais do último conjuntos de dados.

  • As APIs de serviços de saúde do Azure são uma interface gerenciada e em conformidade baseada em padrões para acessar dados de saúde clínica. Nesse cenário, as APIs de serviços de saúde do Azure passam um pacote FHIR para o EHR com os dados clínicos.

Detalhes do cenário

Este artigo apresenta uma solução para análise genômica e relatórios. Os processos e os resultados são apropriados para cenários de medicina de precisão ou áreas de assistência médica que usam a criação de perfis genéticos. Especificamente, a solução fornece um fluxo de trabalho de genômica clínico que automatiza estas tarefas:

  • Como tirar dados de um sequenciador
  • Movendo os dados por meio da análise secundária
  • Fornecendo resultados que os médicos podem utilizar

A escala crescente, a complexidade e os requisitos de segurança da genômica o torna um candidato ideal para mudar para a nuvem. Consequentemente, a solução usa serviços do Azure, além de ferramentas de código-fonte aberto. Essa abordagem aproveita os recursos de segurança, desempenho e escalabilidade da nuvem do Azure:

  • Os cientistas planejam sequenciar centenas de milhares de genomas nos próximos anos. A tarefa de armazenar e analisar esses dados requer capacidade de computação e armazenamento significativas. Com data centers em todo o mundo que fornecem esses recursos, o Azure pode atender a essas demandas.
  • O Azure é certificado para os principais padrões globais de segurança e privacidade, como ISO 27001.
  • O Azure está em conformidade com os padrões de segurança e procedência que a Lei de HIPAA (Portabilidade e Responsabilidade dos Planos de Saúde) estabelece para informações de saúde pessoal.

Um componente-chave da solução é o Microsoft Genomics. Esse serviço oferece uma implementação de análise secundária otimizada que pode processar um genoma 30x em algumas horas. As tecnologias padrão podem levar dias.

Possíveis casos de uso

Essa solução é ideal para o setor de saúde. Aplica-se a muitas áreas:

  • Risco de pontuação de pacientes para câncer
  • Identificando pacientes com marcadores de diagnóstico que os predispõem a doença
  • Gerando coortes de pacientes para estudos

Considerações

As seguintes considerações, se alinham com o Microsoft Azure Well-Architected Framework, e se aplicam a esta solução:

Disponibilidade

Os SLAs (Contrato de Nível de Serviço) da maioria dos componentes do Azure garantem a disponibilidade:

Escalabilidade

A maioria dos serviços do Azure é escalonável por design:

Segurança

A segurança fornece garantias contra ataques deliberados e o abuso de seus dados e sistemas valiosos. Para saber mais, confira Visão geral do pilar de segurança.

As tecnologias nesta solução atendem aos requisitos da maioria das empresas para segurança.

Diretrizes

Devido à natureza sensível dos dados médicos, estabeleça governança e segurança seguindo as diretrizes nestes documentos:

Conformidade regulatória

Características gerais de segurança

Vários componentes também garantem dados de outras maneiras:

Otimização de custo

A otimização de custos é a análise de maneiras de reduzir as despesas desnecessárias e melhorar a eficiência operacional. Para obter mais informações, confira Visão geral do pilar de otimização de custo.

Com a maioria dos serviços do Azure, é possível reduzir os custos pagando apenas pelo que usa:

Colaboradores

Esse artigo é mantido pela Microsoft. Ele foi originalmente escrito pelos colaboradores a seguir.

Principais autores:

Para ver perfis não públicos do LinkedIn, entre no LinkedIn.

Próximas etapas

Arquiteturas totalmente implantáveis:

Soluções de Data Factory

Soluções de análise

Soluções de serviços de saúde