Pipeline de medicina de precisão com genomas

Armazenamento do Blobs do Azure

Fábrica de dados do Azure

Armazenamento do Azure Data Lake

Azure Databricks

Azure Microsoft Genomics

Arquitetura

Architecture diagram showing how information flows through a genomics analysis and reporting pipeline.

Baixe um Arquivo Visio dessa arquitetura.

Workflow

O Azure Data Factory orquestra o fluxo de trabalho:

O Data Factory transfere o arquivo de exemplo inicial para o Armazenamento de Blobs do Azure. O arquivo está no formato FASTQ.
O Microsoft Genomics executa a análise secundária no arquivo.
O Microsoft Genomics armazena a saída no Armazenamento de Blobs em um destes formatos:
- VCF (formato de chamada variante)
- GVCF (Genomic VCF)
O Jupyter Notebook anota o arquivo de saída. O notebook é executado no Azure Databricks.
O Azure Data Lake Storage armazena o arquivo anotado.
O Jupyter Notebook mescla o arquivo com outros conjuntos de dados e analisa os dados. O notebook é executado no Azure Databricks.
O Data Lake Storage armazena os dados processados.
As APIs de serviços de saúde do Azure empacotam os dados em um pacote de FHIR (Fast Healthcare Interoperability Resources). Em seguida, os dados clínicos inserem o EHR (registro eletrônico de saúde do paciente).
Os médicos visualizam os resultados nos painéis do Power BI.

Componentes

A solução usa os seguintes componentes:

Microsoft Genomics

Microsoft Genomics oferece um pipeline de genômica eficiente e preciso que implementa as melhores práticas do setor. Seu mecanismo de alto desempenho é otimizado para estas tarefas:

Lendo arquivos grandes de dados genômicos
Processá-los com eficiência em vários núcleos
Classificação e filtragem dos resultados
Escrevendo os resultados em arquivos de saída

Para maximizar a taxa de transferência, esse mecanismo opera um BWA (alinhador de Burrows-Wheeler) e um chamador de variante GATK (Conjunto de ferramentas de Análise de Genoma). O mecanismo também usa vários outros componentes que comem pipelines de genômica padrão. Exemplos incluem marcação duplicada, recalibração de pontuação de qualidade base e indexação. Em algumas horas, o mecanismo pode processar um único exemplo de genômica em um único servidor de vários núcleos. O processamento começa com leituras brutas. Ele produz leituras alinhadas e chamadas variantes.

Internamente, o controlador Microsoft Genomics gerencia esses aspectos do processo:

Distribuindo lotes de genomas entre pools de máquinas na nuvem
Mantendo uma fila de solicitações de entrada
Distribuindo as solicitações para servidores que executem o mecanismo de genômica
Monitorando o desempenho e o progresso dos servidores
Avaliando os resultados
Garantir que o processamento seja executado de forma confiável e segura em escala, por trás de uma API de serviço Web segura

É possível usar facilmente os resultados do Microsoft Genomics em análise terciária e serviços de aprendizado de máquina. E como o Microsoft Genomics é um serviço de nuvem, você não precisa gerenciar nem atualizar hardware ou software.

Outros componentes

O Data Factory é um serviço de integração que funciona com dados de armazenamentos de dados diferentes. É possível usar essa plataforma sem servidor totalmente gerenciada para orquestrar e automatizar fluxos de trabalho. Especificamente, os pipelines do Data Factory transferem dados para o Azure nesta solução. Uma sequência de pipelines dispara cada etapa do fluxo de trabalho.
O Armazenamento de Blobs oferece armazenamento otimizado de objetos de nuvem para grandes quantidades de dados não estruturados. Nesse cenário, o Armazenamento de Blobs fornece a zona de destino inicial para o arquivo FASTQ. Esse serviço também funciona como o destino de saída para os arquivos VCF e GVCF gerados pelo Microsoft Genomics. A funcionalidade de camadas no Armazenamento de Blobs fornece uma maneira de arquivar arquivos FASTQ em armazenamento de longo prazo barato após o processamento.
O Azure Databricks é uma plataforma de análise de dados. Seus clusters de Spark totalmente gerenciados processam grandes fluxos de dados de várias fontes. Nesta solução, o Azure Databricks fornece os recursos computacionais que o Jupyter Notebook precisa para anotar, mesclar e analisar os dados.
O Data Lake Storage é um data lake seguro e escalonável para cargas de trabalho de análise de alto desempenho. Este serviço pode gerenciar vários petabytes de informações enquanto mantém centenas de gigabits de taxa de transferência. Os dados podem ser estruturados, semiestruturados ou não estruturados. Normalmente, ele vem de várias fontes heterogêneas. Nessa arquitetura, o Data Lake Storage a zona de zona de destino para os arquivos anotados e os conjuntos de dados mesclados. Ele também fornece aos sistemas downstream acesso à saída final.
O Power BI é uma coleção de serviços de software e aplicativos que exibem informações de análise. É possível usar o Power BI para se conectar e exibir fontes de dados não relacionadas. Nesta solução, é possível preencher os painéis do Power BI com os resultados. Os médicos podem criar visuais do último conjuntos de dados.
As APIs de serviços de saúde do Azure são uma interface gerenciada e em conformidade baseada em padrões para acessar dados de saúde clínica. Nesse cenário, as APIs de serviços de saúde do Azure passam um pacote FHIR para o EHR com os dados clínicos.

Detalhes do cenário

Este artigo apresenta uma solução para análise genômica e relatórios. Os processos e os resultados são apropriados para cenários de medicina de precisão ou áreas de assistência médica que usam a criação de perfis genéticos. Especificamente, a solução fornece um fluxo de trabalho de genômica clínico que automatiza estas tarefas:

Como tirar dados de um sequenciador
Movendo os dados por meio da análise secundária
Fornecendo resultados que os médicos podem utilizar

A escala crescente, a complexidade e os requisitos de segurança da genômica o torna um candidato ideal para mudar para a nuvem. Consequentemente, a solução usa serviços do Azure, além de ferramentas de código-fonte aberto. Essa abordagem aproveita os recursos de segurança, desempenho e escalabilidade da nuvem do Azure:

Os cientistas planejam sequenciar centenas de milhares de genomas nos próximos anos. A tarefa de armazenar e analisar esses dados requer capacidade de computação e armazenamento significativas. Com data centers em todo o mundo que fornecem esses recursos, o Azure pode atender a essas demandas.
O Azure é certificado para os principais padrões globais de segurança e privacidade, como ISO 27001.
O Azure está em conformidade com os padrões de segurança e procedência que a Lei de HIPAA (Portabilidade e Responsabilidade dos Planos de Saúde) estabelece para informações de saúde pessoal.

Um componente-chave da solução é o Microsoft Genomics. Esse serviço oferece uma implementação de análise secundária otimizada que pode processar um genoma 30x em algumas horas. As tecnologias padrão podem levar dias.

Possíveis casos de uso

Essa solução é ideal para o setor de saúde. Aplica-se a muitas áreas:

Risco de pontuação de pacientes para câncer
Identificando pacientes com marcadores de diagnóstico que os predispõem a doença
Gerando coortes de pacientes para estudos

Considerações

As seguintes considerações, se alinham com o Microsoft Azure Well-Architected Framework, e se aplicam a esta solução:

Disponibilidade

Os SLAs (Contrato de Nível de Serviço) da maioria dos componentes do Azure garantem a disponibilidade:

Pelo menos 99,9% dos pipelines do Data Factory têm garantia de que serão executados com êxito.
O SLA do Azure Databricks garante 99,95% de disponibilidade.
O Microsoft Genomics oferece um SLA de disponibilidade de 99,99% para solicitações de fluxo de trabalho.
O Armazenamento de Blobs e o Data Lake Storage fazem parte do Armazenamento do Microsoft Azure, que oferece disponibilidade por meio de redundância.

Escalabilidade

A maioria dos serviços do Azure é escalonável por design:

O Data Factory transforma dados em escala.
Os clusters no Azure Databricks são redimensionados conforme necessário.
Para obter informações sobre como otimizar a escalabilidade no Armazenamento de Blobs, consulte Lista de verificação de desempenho e escalabilidade para Armazenamento de Blobs.
O Data Lake Storage pode gerenciar exabytes de dados.
O Microsoft Genomics executa cargas de trabalho em escala de exabyte.

Segurança

A segurança fornece garantias contra ataques deliberados e o abuso de seus dados e sistemas valiosos. Para saber mais, confira Visão geral do pilar de segurança.

As tecnologias nesta solução atendem aos requisitos da maioria das empresas para segurança.

Diretrizes

Devido à natureza sensível dos dados médicos, estabeleça governança e segurança seguindo as diretrizes nestes documentos:

Conformidade regulatória

Consulte estes documentos para obter informações sobre como estar em conformidade com HIPAA e a Lei de HITECH (Tecnologia da Informação em Saúde para Saúde Clínica e Econômica):
- HIPAA - Conformidade do Azure
- Lei americana HIPAA (Health Insurance Portability and Accountability Act) e HITECH (Health Information Technology for Economic and Clinical Health)
Os componentes dessa solução estão no escopo da HIPAA de acordo com as Ofertas de Conformidade do Microsoft Azure. Se você substituir outros componentes, valide-os primeiro em relação à lista no apêndice do documento.

Características gerais de segurança

Vários componentes também garantem dados de outras maneiras:

O Data Factory criptografa os dados que ele transfere. Ele também usa o Azure Key Vault ou certificados para criptografar credenciais.
O Azure Databricks fornece muitas ferramentas para proteger a infraestrutura de rede e os dados. Os exemplos incluem listas de controle de acesso, segredos e NPIP (nenhum IP público).
O Armazenamento de Blobs dá suporte à SSE (criptografia do serviço de armazenamento), que criptografa automaticamente os dados antes de armazená-los. Ele também fornece muitas outras maneiras de proteger dados e redes.
O Data Lake Storage fornece controle de acesso. Seu modelo dá suporte a esses tipos de controles:
- Controle de acesso baseado em função (RBAC) do Azure
- ACLs (listas de controle de acesso) do POSIX (Portable Operating System Interface)

Otimização de custo

A otimização de custos é a análise de maneiras de reduzir as despesas desnecessárias e melhorar a eficiência operacional. Para obter mais informações, confira Visão geral do pilar de otimização de custo.

Com a maioria dos serviços do Azure, é possível reduzir os custos pagando apenas pelo que usa:

Com o Data Factory, o volume de execução de atividade determina o custo.
O Azure Databricks oferece muitas camadas, cargas de trabalho e planos de preços para ajudá-lo a minimizar os custos.
Os custos de armazenamento de Blobs dependem das opções de redundância de dados e do volume.
Com o Data Lake Storage, o preço depende de muitos fatores: o tipo de namespace, a capacidade de armazenamento e a escolha da camada.
Para o Microsoft Genomics, o preço depende do número de gigabases que cada fluxo de trabalho processa.

Colaboradores

Esse artigo é mantido pela Microsoft. Ele foi originalmente escrito pelos colaboradores a seguir.

Principais autores:

Wylie Graham | Gerente de Programas Sênior
Matt Hansen | Arquiteto de soluções de nuvem sênior

Para ver perfis não públicos do LinkedIn, entre no LinkedIn.

Próximas etapas

Arquiteturas totalmente implantáveis:

Soluções de Data Factory

BI corporativo automatizado
[ETL híbrido com o Azure Data Factory] [ETL híbrido com o Azure Data Factory]
Replicar e sincronizar dados de mainframe no Azure

Share via

Pipeline de medicina de precisão com genomas

Arquitetura

Workflow

Componentes

Microsoft Genomics

Outros componentes

Detalhes do cenário

Possíveis casos de uso

Considerações

Disponibilidade

Escalabilidade

Segurança

Diretrizes

Conformidade regulatória

Características gerais de segurança

Otimização de custo

Colaboradores

Próximas etapas

Soluções de Data Factory

Soluções de análise

Soluções de serviços de saúde

Comentários

Comentários

Recursos adicionais

Share via

Pipeline de medicina de precisão com genomas

Arquitetura

Workflow

Componentes

Microsoft Genomics

Outros componentes

Detalhes do cenário

Possíveis casos de uso

Considerações

Disponibilidade

Escalabilidade

Segurança

Diretrizes

Conformidade regulatória

Características gerais de segurança

Otimização de custo

Colaboradores

Próximas etapas

Recursos relacionados

Soluções de Data Factory

Soluções de análise

Soluções de serviços de saúde

Comentários

Comentários

Recursos adicionais