Este artigo apresenta uma solução para análise genômica e relatórios. Os processos e os resultados são apropriados para cenários de medicina de precisão ou áreas de assistência médica que usam a criação de perfis genéticos.
Arquitetura
O diagrama contém duas caixas. A primeira, à esquerda, tem o rótulo Azure Data Factory para orquestração. A segunda caixa tem as exibições do rótulo do médico. A primeira caixa contém várias caixas menores que representam dados ou vários componentes do Azure. As setas conectam as caixas e os rótulos numerados nas setas correspondem às etapas numeradas no texto do documento. Duas setas fluem entre as caixas, terminando na caixa de visualizações do médico. Uma seta aponta para um ícone de médico. O outro aponta para um ícone de Power BI.
Baixe um Arquivo Visio dessa arquitetura.
Workflow
O Azure Data Factory orquestra o fluxo de trabalho:
O Data Factory transfere o arquivo de exemplo inicial para o Armazenamento de Blobs do Azure. O arquivo está no formato FASTQ.
O Microsoft Genomics executa a análise secundária no arquivo.
O Microsoft Genomics armazena a saída no Armazenamento de Blobs em um destes formatos:
- VCF (formato de chamada variante)
- GVCF (Genomic VCF)
O Jupyter Notebook anota o arquivo de saída. O notebook é executado no Azure Databricks.
O Azure Data Lake Storage armazena o arquivo anotado.
O Jupyter Notebook mescla o arquivo com outros conjuntos de dados e analisa os dados. O notebook é executado no Azure Databricks.
O Data Lake Storage armazena os dados processados.
As APIs de serviços de saúde do Azure empacotam os dados em um pacote de FHIR (Fast Healthcare Interoperability Resources). Em seguida, os dados clínicos inserem o EHR (registro eletrônico de saúde do paciente).
Os médicos visualizam os resultados nos painéis do Power BI.
Componentes
A solução usa os seguintes componentes:
Microsoft Genomics
Microsoft Genomics oferece um pipeline de genômica eficiente e preciso que implementa as melhores práticas do setor. Seu mecanismo de alto desempenho é otimizado para estas tarefas:
- Lendo arquivos grandes de dados genômicos
- Processá-los com eficiência em vários núcleos
- Classificação e filtragem dos resultados
- Escrevendo os resultados em arquivos de saída
Para maximizar a taxa de transferência, esse mecanismo opera um BWA (alinhador de Burrows-Wheeler) e um chamador de variante GATK (Conjunto de ferramentas de Análise de Genoma). O mecanismo também usa vários outros componentes que comem pipelines de genômica padrão. Exemplos incluem marcação duplicada, recalibração de pontuação de qualidade base e indexação. Em algumas horas, o mecanismo pode processar um único exemplo de genômica em um único servidor de vários núcleos. O processamento começa com leituras brutas. Ele produz leituras alinhadas e chamadas variantes.
Internamente, o controlador Microsoft Genomics gerencia esses aspectos do processo:
- Distribuindo lotes de genomas entre pools de máquinas na nuvem
- Mantendo uma fila de solicitações de entrada
- Distribuindo as solicitações para servidores que executem o mecanismo de genômica
- Monitorando o desempenho e o progresso dos servidores
- Avaliando os resultados
- Garantir que o processamento seja executado de forma confiável e segura em escala, por trás de uma API de serviço Web segura
É possível usar facilmente os resultados do Microsoft Genomics em análise terciária e serviços de aprendizado de máquina. E como o Microsoft Genomics é um serviço de nuvem, você não precisa gerenciar nem atualizar hardware ou software.
Outros componentes
O Data Factory é um serviço de integração que funciona com dados de armazenamentos de dados diferentes. É possível usar essa plataforma sem servidor totalmente gerenciada para orquestrar e automatizar fluxos de trabalho. Especificamente, os pipelines do Data Factory transferem dados para o Azure nesta solução. Uma sequência de pipelines dispara cada etapa do fluxo de trabalho.
O Armazenamento de Blobs oferece armazenamento otimizado de objetos de nuvem para grandes quantidades de dados não estruturados. Nesse cenário, o Armazenamento de Blobs fornece a zona de destino inicial para o arquivo FASTQ. Esse serviço também funciona como o destino de saída para os arquivos VCF e GVCF gerados pelo Microsoft Genomics. A funcionalidade de camadas no Armazenamento de Blobs fornece uma maneira de arquivar arquivos FASTQ em armazenamento de longo prazo barato após o processamento.
O Azure Databricks é uma plataforma de análise de dados. Seus clusters de Spark totalmente gerenciados processam grandes fluxos de dados de várias fontes. Nesta solução, o Azure Databricks fornece os recursos computacionais que o Jupyter Notebook precisa para anotar, mesclar e analisar os dados.
O Data Lake Storage é um data lake seguro e escalonável para cargas de trabalho de análise de alto desempenho. Este serviço pode gerenciar vários petabytes de informações enquanto mantém centenas de gigabits de taxa de transferência. Os dados podem ser estruturados, semiestruturados ou não estruturados. Normalmente, ele vem de várias fontes heterogêneas. Nessa arquitetura, o Data Lake Storage a zona de zona de destino para os arquivos anotados e os conjuntos de dados mesclados. Ele também fornece aos sistemas downstream acesso à saída final.
O Power BI é uma coleção de serviços de software e aplicativos que exibem informações de análise. É possível usar o Power BI para se conectar e exibir fontes de dados não relacionadas. Nesta solução, é possível preencher os painéis do Power BI com os resultados. Os médicos podem criar visuais do último conjuntos de dados.
As APIs de serviços de saúde do Azure são uma interface gerenciada e em conformidade baseada em padrões para acessar dados de saúde clínica. Nesse cenário, as APIs de serviços de saúde do Azure passam um pacote FHIR para o EHR com os dados clínicos.
Detalhes do cenário
Este artigo apresenta uma solução para análise genômica e relatórios. Os processos e os resultados são apropriados para cenários de medicina de precisão ou áreas de assistência médica que usam a criação de perfis genéticos. Especificamente, a solução fornece um fluxo de trabalho de genômica clínico que automatiza estas tarefas:
- Como tirar dados de um sequenciador
- Movendo os dados por meio da análise secundária
- Fornecendo resultados que os médicos podem utilizar
A escala crescente, a complexidade e os requisitos de segurança da genômica o torna um candidato ideal para mudar para a nuvem. Consequentemente, a solução usa serviços do Azure, além de ferramentas de código-fonte aberto. Essa abordagem aproveita os recursos de segurança, desempenho e escalabilidade da nuvem do Azure:
- Os cientistas planejam sequenciar centenas de milhares de genomas nos próximos anos. A tarefa de armazenar e analisar esses dados requer capacidade de computação e armazenamento significativas. Com data centers em todo o mundo que fornecem esses recursos, o Azure pode atender a essas demandas.
- O Azure é certificado para os principais padrões globais de segurança e privacidade, como ISO 27001.
- O Azure está em conformidade com os padrões de segurança e procedência que a Lei de HIPAA (Portabilidade e Responsabilidade dos Planos de Saúde) estabelece para informações de saúde pessoal.
Um componente-chave da solução é o Microsoft Genomics. Esse serviço oferece uma implementação de análise secundária otimizada que pode processar um genoma 30x em algumas horas. As tecnologias padrão podem levar dias.
Possíveis casos de uso
Essa solução é ideal para o setor de saúde. Aplica-se a muitas áreas:
- Risco de pontuação de pacientes para câncer
- Identificando pacientes com marcadores de diagnóstico que os predispõem a doença
- Gerando coortes de pacientes para estudos
Considerações
As seguintes considerações, se alinham com o Microsoft Azure Well-Architected Framework, e se aplicam a esta solução:
Disponibilidade
Os SLAs (Contrato de Nível de Serviço) da maioria dos componentes do Azure garantem a disponibilidade:
- Pelo menos 99,9% dos pipelines do Data Factory têm garantia de que serão executados com êxito.
- O SLA do Azure Databricks garante 99,95% de disponibilidade.
- O Microsoft Genomics oferece um SLA de disponibilidade de 99,99% para solicitações de fluxo de trabalho.
- O Armazenamento de Blobs e o Data Lake Storage fazem parte do Armazenamento do Microsoft Azure, que oferece disponibilidade por meio de redundância.
Escalabilidade
A maioria dos serviços do Azure é escalonável por design:
- O Data Factory transforma dados em escala.
- Os clusters no Azure Databricks são redimensionados conforme necessário.
- Para obter informações sobre como otimizar a escalabilidade no Armazenamento de Blobs, consulte Lista de verificação de desempenho e escalabilidade para Armazenamento de Blobs.
- O Data Lake Storage pode gerenciar exabytes de dados.
- O Microsoft Genomics executa cargas de trabalho em escala de exabyte.
Segurança
A segurança fornece garantias contra ataques deliberados e o abuso de seus dados e sistemas valiosos. Para saber mais, confira Visão geral do pilar de segurança.
As tecnologias nesta solução atendem aos requisitos da maioria das empresas para segurança.
Diretrizes
Devido à natureza sensível dos dados médicos, estabeleça governança e segurança seguindo as diretrizes nestes documentos:
- Segurança no Cloud Adoption Framework da Microsoft para o Azure
- Guia prático para criar soluções seguras de saúde usando o Microsoft Azure
- Zonas de destino de escala corporativa
Conformidade regulatória
Consulte estes documentos para obter informações sobre como estar em conformidade com HIPAA e a Lei de HITECH (Tecnologia da Informação em Saúde para Saúde Clínica e Econômica):
Os componentes dessa solução estão no escopo da HIPAA de acordo com as Ofertas de Conformidade do Microsoft Azure. Se você substituir outros componentes, valide-os primeiro em relação à lista no apêndice do documento.
Características gerais de segurança
Vários componentes também garantem dados de outras maneiras:
O Azure Databricks fornece muitas ferramentas para proteger a infraestrutura de rede e os dados. Os exemplos incluem listas de controle de acesso, segredos e NPIP (nenhum IP público).
O Armazenamento de Blobs dá suporte à SSE (criptografia do serviço de armazenamento), que criptografa automaticamente os dados antes de armazená-los. Ele também fornece muitas outras maneiras de proteger dados e redes.
O Data Lake Storage fornece controle de acesso. Seu modelo dá suporte a esses tipos de controles:
- Controle de acesso baseado em função (RBAC) do Azure
- ACLs (listas de controle de acesso) do POSIX (Portable Operating System Interface)
Otimização de custo
A otimização de custos é a análise de maneiras de reduzir as despesas desnecessárias e melhorar a eficiência operacional. Para obter mais informações, confira Visão geral do pilar de otimização de custo.
Com a maioria dos serviços do Azure, é possível reduzir os custos pagando apenas pelo que usa:
- Com o Data Factory, o volume de execução de atividade determina o custo.
- O Azure Databricks oferece muitas camadas, cargas de trabalho e planos de preços para ajudá-lo a minimizar os custos.
- Os custos de armazenamento de Blobs dependem das opções de redundância de dados e do volume.
- Com o Data Lake Storage, o preço depende de muitos fatores: o tipo de namespace, a capacidade de armazenamento e a escolha da camada.
- Para o Microsoft Genomics, o preço depende do número de gigabases que cada fluxo de trabalho processa.
Colaboradores
Esse artigo é mantido pela Microsoft. Ele foi originalmente escrito pelos colaboradores a seguir.
Principais autores:
- Wylie Graham | Gerente de Programas Sênior
- Matt Hansen | Arquiteto de soluções de nuvem sênior
Para ver perfis não públicos do LinkedIn, entre no LinkedIn.
Próximas etapas
- Microsoft Genomics: Perguntas frequentes
- Kit de início rápido do Genomics
- Alinhador Burrows-Wheeler
- Conjunto de ferramentas de Análise de Genoma
Recursos relacionados
Arquiteturas totalmente implantáveis:
Soluções de Data Factory
- BI corporativo automatizado
- [ETL híbrido com o Azure Data Factory] [ETL híbrido com o Azure Data Factory]
- Replicar e sincronizar dados de mainframe no Azure
Soluções de análise
- Data warehouse e análise
- Processamento e análise de dados geoespaciais
- Processamento de fluxo com o Azure Databricks