Editar

Pipeline de medicina de precisão com genómica

Azure Blob Storage
Azure Data Factory
Azure Data Lake Storage
Azure Databricks
Azure Microsoft Genomics

Este artigo apresenta uma solução para análise genómica e relatórios. Os processos e resultados são apropriados para cenários de medicina de precisão, ou áreas de cuidados médicos que usam perfil genético.

Arquitetura

Architecture diagram showing how information flows through a genomics analysis and reporting pipeline.

O diagrama contém duas caixas. O primeiro, à esquerda, tem o rótulo Azure Data Factory para orquestração. A segunda caixa tem o rótulo Vistas do clínico. A primeira caixa contém várias caixas menores que representam dados ou vários componentes do Azure. As setas conectam as caixas e os rótulos numerados nas setas correspondem às etapas numeradas no texto do documento. Duas setas fluem entre as caixas, terminando na caixa Vistas do clínico. Uma seta aponta para um ícone clínico. O outro aponta para um ícone do Power BI.

Transfira um ficheiro do Visio desta arquitetura.

Fluxo de trabalho

O Azure Data Factory orquestra o fluxo de trabalho:

  1. O Data Factory transfere o arquivo de exemplo inicial para o Armazenamento de Blobs do Azure. O arquivo está no formato FASTQ.

  2. O Microsoft Genomics executa a análise secundária no arquivo.

  3. O Microsoft Genomics armazena a saída no Armazenamento de Blobs em um destes formatos:

    • Formato de chamada variante (VCF)
    • VCF genómica (GVCF)
  4. O Jupyter Notebook anota o arquivo de saída. O bloco de anotações é executado no Azure Databricks.

  5. O Armazenamento Azure Data Lake armazena o arquivo anotado.

  6. O Jupyter Notebook mescla o arquivo com outros conjuntos de dados e analisa os dados. O bloco de anotações é executado no Azure Databricks.

  7. O Armazenamento Data Lake armazena os dados processados.

  8. As APIs do Azure Healthcare empacotam os dados em um pacote FHIR (Fast Healthcare Interoperability Resources). Em seguida, os dados clínicos entram no registo de saúde eletrónico (RSE) do doente.

  9. Os médicos visualizam os resultados nos painéis do Power BI.

Componentes

A solução utiliza os seguintes componentes:

Microsoft Genomics

A Microsoft Genomics oferece um pipeline de genômica eficiente e preciso que implementa as melhores práticas do setor. Seu motor de alto desempenho é otimizado para estas tarefas:

  • Leitura de grandes ficheiros de dados genómicos
  • Processando-os de forma eficiente em vários núcleos
  • Ordenar e filtrar os resultados
  • Gravando os resultados em arquivos de saída

Para maximizar o rendimento, este motor opera um Alinhador Burrows-Wheeler (BWA) e um chamador variante HaplotypeCaller do Kit de Ferramentas de Análise do Genoma (GATK). O motor também usa vários outros componentes que compõem pipelines de genômica padrão. Os exemplos incluem marcação duplicada, recalibração do índice de qualidade base e indexação. Em poucas horas, o mecanismo pode processar uma única amostra genômica em um único servidor multi-core. O processamento começa com leituras brutas. Produz leituras alinhadas e chamadas variantes.

Internamente, o controlador Microsoft Genomics gerencia estes aspetos do processo:

  • Distribuição de lotes de genomas em pools de máquinas na nuvem
  • Mantendo uma fila de solicitações de entrada
  • Distribuindo as solicitações para servidores que executam o mecanismo de genômica
  • Monitoramento do desempenho e progresso dos servidores
  • Avaliação dos resultados
  • Garantir que o processamento seja executado de forma confiável e segura em escala, por trás de uma API de serviço Web segura

Você pode usar facilmente os resultados do Microsoft Genomics em serviços de análise terciária e aprendizado de máquina. E como o Microsoft Genomics é um serviço de nuvem, você não precisa gerenciar ou atualizar hardware ou software.

Outros componentes

  • O Data Factory é um serviço de integração que trabalha com dados de armazenamentos de dados diferentes. Você pode usar essa plataforma totalmente gerenciada e sem servidor para orquestrar e automatizar fluxos de trabalho. Especificamente, os pipelines do Data Factory transferem dados para o Azure nesta solução. Em seguida, uma sequência de pipelines dispara cada etapa do fluxo de trabalho.

  • O Blob Storage oferece armazenamento otimizado de objetos na nuvem para grandes quantidades de dados não estruturados. Nesse cenário, o armazenamento de Blob fornece a zona de aterrissagem inicial para o arquivo FASTQ. Este serviço também funciona como o destino de saída para os arquivos VCF e GVCF que o Microsoft Genomics gera. A funcionalidade de hierarquização no armazenamento de Blob fornece uma maneira de arquivar arquivos FASTQ em armazenamento de longo prazo barato após o processamento.

  • O Azure Databricks é uma plataforma de análise de dados. Seus clusters Spark totalmente gerenciados processam grandes fluxos de dados de várias fontes. Nesta solução, o Azure Databricks fornece os recursos computacionais de que o Jupyter Notebook precisa para anotar, mesclar e analisar os dados.

  • O Data Lake Storage é um data lake escalável e seguro para cargas de trabalho de análise de alto desempenho. Esse serviço pode gerenciar vários petabytes de informações enquanto sustenta centenas de gigabits de taxa de transferência. Os dados podem ser estruturados, semi-estruturados ou não estruturados. Normalmente provém de múltiplas fontes heterogéneas. Nessa arquitetura, o Data Lake Storage fornece a zona de aterrissagem final para os arquivos anotados e os conjuntos de dados mesclados. Também dá aos sistemas a jusante acesso à saída final.

  • O Power BI é uma coleção de serviços de software e aplicativos que exibem informações de análise. Você pode usar o Power BI para conectar e exibir fontes de dados não relacionadas. Nesta solução, você pode preencher painéis do Power BI com os resultados. Os médicos podem então criar elementos visuais a partir do conjunto de dados final.

  • As APIs do Azure Healthcare são uma interface gerenciada, baseada em padrões e compatível para acessar dados clínicos de integridade. Nesse cenário, as APIs do Azure Healthcare passam um pacote FHIR para o EHR com os dados clínicos.

Detalhes do cenário

Este artigo apresenta uma solução para análise genómica e relatórios. Os processos e resultados são apropriados para cenários de medicina de precisão, ou áreas de cuidados médicos que usam perfil genético. Especificamente, a solução fornece um fluxo de trabalho de genômica clínica que automatiza estas tarefas:

  • Obtendo dados de um sequenciador
  • Movendo os dados através da análise secundária
  • Fornecer resultados que os médicos podem consumir

A crescente escala, complexidade e requisitos de segurança da genómica tornam-na um candidato ideal para migrar para a nuvem. Consequentemente, a solução usa os serviços do Azure, além de ferramentas de código aberto. Essa abordagem aproveita os recursos de segurança, desempenho e escalabilidade da nuvem do Azure:

  • Os cientistas planeiam sequenciar centenas de milhares de genomas nos próximos anos. A tarefa de armazenar e analisar esses dados requer poder de computação e capacidade de armazenamento significativos. Com centros de dados em todo o mundo que fornecem esses recursos, o Azure pode atender a essas demandas.
  • O Azure é certificado para os principais padrões globais de segurança e privacidade, como a ISO 27001.
  • O Azure está em conformidade com os padrões de segurança e proveniência que a Lei de Portabilidade e Responsabilidade de Seguros de Saúde (HIPAA) estabelece para informações pessoais de saúde.

Um componente-chave da solução é a Microsoft Genomics. Este serviço oferece uma implementação de análise secundária otimizada que pode processar um genoma de 30x em poucas horas. As tecnologias padrão podem levar dias.

Potenciais casos de utilização

Esta solução é ideal para a indústria da saúde. Aplica-se a muitos domínios:

  • Doentes com pontuação de risco para cancro
  • Identificação de pacientes com marcadores genéticos que os predispõem à doença
  • Geração de coortes de pacientes para estudos

Considerações

As considerações a seguir se alinham com o Microsoft Azure Well-Architected Framework e se aplicam a esta solução:

Disponibilidade

Os contratos de nível de serviço (SLAs) da maioria dos componentes do Azure garantem a disponibilidade:

Escalabilidade

A maioria dos serviços do Azure é escalável por design:

Segurança

A segurança oferece garantias contra ataques deliberados e o abuso de seus valiosos dados e sistemas. Para obter mais informações, consulte Visão geral do pilar de segurança.

As tecnologias desta solução atendem aos requisitos de segurança da maioria das empresas.

Diretrizes

Devido à natureza sensível dos dados médicos, estabeleça governança e segurança seguindo as diretrizes destes documentos:

Conformidade regulamentar

Elementos de segurança gerais

Vários componentes também protegem os dados de outras maneiras:

Otimização de custos

A otimização de custos consiste em procurar formas de reduzir despesas desnecessárias e melhorar a eficiência operacional. Para obter mais informações, consulte Visão geral do pilar de otimização de custos.

Com a maioria dos serviços do Azure, pode reduzir custos pagando apenas pelo que utiliza:

Contribuidores

Este artigo é mantido pela Microsoft. Foi originalmente escrito pelos seguintes contribuidores.

Principais autores:

Para ver perfis não públicos do LinkedIn, inicie sessão no LinkedIn.

Próximos passos

Arquiteturas totalmente implantáveis:

Soluções Data Factory

Soluções de análises

Soluções para cuidados de saúde