Visão geral do Azure Data Lake Storage Gen1 no HDInsight

O Azure Data Lake Storage Gen1 é um repositório de hiperescala em toda a empresa para cargas de trabalho de análise de big data. Usando o Azure Data Lake você pode capturar dados de qualquer tamanho, tipo e velocidade de ingestão. E em um único lugar para análise operacional e exploratória.

Acesse o Data Lake Storage Gen1 a partir do Hadoop (disponível com um cluster do HDInsight) usando as APIs REST compatíveis com WebHDFS. O Data Lake Storage Gen1 foi desenvolvido para permitir a análise dos dados armazenados e está ajustado para trabalhar em cenários de análise de dados. Gen1 inclui os recursos que são essenciais para a utilização em casos de uso corporativo reais. Esses recursos incluem segurança, capacidade de gerenciamento, adaptabilidade, confiabilidade e disponibilidade.

Para saber mais sobre o Azure Data Lake Storage Gen1, confira a Visão geral do Azure Data Lake Storage Gen1.

Os principais recursos do Data Lake Storage Gen1 incluem o seguinte.

Compatibilidade com o Hadoop

O Data Lake Storage Gen1 é um sistema de arquivos Apache Hadoop compatível com HDFS e ambiente Hadoop. Os aplicativos ou serviços do HDInsight que usam a API WebHDFS podem ser facilmente integrados ao Data Lake Storage Gen1. O Data Lake Storage Gen1 também exibe uma interface REST compatível com WebHDFS para aplicativos.

Os dados armazenados no Data Lake Storage Gen1 podem ser facilmente analisados usando estruturas analíticas do Hadoop. Estruturas como MapReduce ou Hive. Os clusters do Azure HDInsight podem ser provisionados e configurados para acessar diretamente os dados armazenados no Data Lake Storage Gen1.

Armazenamento ilimitado, arquivos em petabytes

O Data Lake Storage Gen1 fornece armazenamento ilimitado e é adequado para armazenar diferentes tipos de dados para análise. Ele não impõe limites em tamanhos de conta ou tamanhos de arquivo. Ou na quantidade de dados que pode ser armazenada em um data lake. Os arquivos individuais variam no tamanho, de quilobytes a petabytes, o que torna o Data Lake Storage Gen1 uma ótima opção para armazenar quaisquer tipos de dados. Os dados são armazenados permanentemente pela criação de várias cópias. E não há limites para quanto tempo os dados podem ficar armazenados no data lake.

Ajustes de desempenho para a análise de big data

Data Lake Storage Gen1 é projetado para sistemas de análise. Sistemas que exigem uma grande taxa de transferência para consultar e analisar grandes quantidades de dados. O Data Lake espalha as partes de um arquivo por vários servidores de armazenamento individual. Quando você estiver analisando os dados, essa configuração melhorará a taxa de transferência de leitura quando o arquivo é lido em paralelo.

Preparação para empresa: altamente disponível e seguro

O Data Lake Storage Gen1 fornece disponibilidade e confiabilidade padrão do setor. Os ativos de dados são armazenados permanentemente: cópias redundantes protegem contra falhas inesperadas. As empresas podem usar o Data Lake Storage Gen1 em suas soluções como parte importante de sua plataforma de dados existente.

O Data Lake Storage Gen1 também fornece segurança de nível corporativo para os dados armazenados. Para obter mais informações, consulte Protegendo dados no Armazenamento de dados do Lake Azure Gen1.

Estruturas de dados flexível

O Data Lake Storage Gen1 pode armazenar qualquer dado em seu formato nativo, no estado em que estiver, sem a necessidade de transformações anteriores. O Data Lake Storage Gen1 não exige a definição de um esquema antes de os dados serem carregados. A estrutura de análise individual interpreta os dados e define um esquema no momento da análise. O Data Lake Storage Gen1 pode manipular dados estruturados. E dados semiestruturados e não estruturados.

Os contêineres Data Lake Storage Gen1 para dados são essencialmente pastas e arquivos. Você opera nos dados armazenados usando SDKs, o portal do Azure e o Azure PowerShell. Os dados colocados no armazenamento com essas interfaces e contêineres podem armazenar quaisquer tipos de dados. O Data Lake Storage Gen1 não faz nenhum tratamento especial de dados baseado no tipo de dado.

Segurança de dados no Data Lake Storage Gen1

O Data Lake Storage Gen1 usa o Microsoft Entra ID para autenticação e listas de controle de acesso (ACLs) para gerenciar o acesso aos seus dados.

Recurso Descrição
Autenticação O Data Lake Storage Gen1 integra-se à ID do Microsoft Entra para gerenciamento de identidade e acesso para todos os dados armazenados no Data Lake Storage Gen1. Devido à integração, o Data Lake Storage Gen1 se beneficia de todos os recursos do Microsoft Entra. Esses recursos incluem: autenticação multifator, Acesso Condicional e controle de acesso baseado em função do Azure. Além disso, uso e monitoramento de aplicativo, monitoramento e alerta de segurança e mais. O Data Lake Storage Gen1 oferece suporte ao protocolo OAuth 2.0 para autenticação na interface REST. Confira Autenticação no Azure Data Lake Storage Gen1 usando o Microsoft Entra ID
Controle de acesso O Data Lake Storage Gen1 fornece controle de acesso oferecendo suporte a permissões no estilo POSIX, que são expostas pelo protocolo WebHDFS. As ACLs podem ser habilitadas na pasta raiz, nas subpastas e nos arquivos individuais. Para saber mais sobre como as ACLs funcionam no contexto do Data Lake Storage Gen1, confira o artigo sobre o controle de acesso no Data Lake Storage Gen1.
Criptografia O Azure Data Lake Storage Gen1 também fornece criptografia para dados armazenados na conta. Você especifica as configurações de criptografia ao criar uma conta do Data Lake Storage Gen1. É possível optar por ter os dados criptografados ou não escolher nenhuma criptografia. Para obter mais informações, consulte Criptografia no Data Lake Storage Gen1. Para obter instruções sobre como fornecer uma configuração relacionada à criptografia, confira a Introdução ao Azure Data Lake Storage Gen1 usando o portal do Azure .

Para saber mais sobre como proteger os dados no Data Lake Storage Gen1, confira o artigo sobre como proteger os dados armazenados no Azure Data Lake Storage Gen1.

Aplicativos compatíveis com o Data Lake Storage Gen1

O Data Lake Storage Gen1 é compatível com a maioria dos componentes de software de código aberto no ambiente do Hadoop. Ele também se integra perfeitamente com outros serviços do Azure. Siga os links abaixo para saber mais sobre como o Data Lake Storage Gen1 pode ser usado tanto com componentes de software livre e com outros serviços do Azure.

Sistema de arquivo do Data Lake Storage Gen1 (adl://)

Em ambientes do Hadoop, é possível acessar o Data Lake Storage Gen1 por meio do novo sistema de arquivos, o AzureDataLakeFilesystem (adl://). O desempenho de aplicativos e serviços que usam adl:// pode ser otimizado de maneiras que não estão disponíveis no WebHDFS. Como resultado, você obterá a flexibilidade para aproveitar o melhor desempenho usando o adl:// recomendada. Ou mantenha o código existente continuando a usar a API WebHDFS diretamente. O Azure HDInsight aproveita totalmente o AzureDataLakeFilesystem para fornecer o melhor desempenho no Data Lake Storage Gen1.

Acesse seus dados no Data Lake Storage Gen1 usando o seguinte URI:

adl://<data_lake_storage_gen1_name>.azuredatalakestore.net

Para saber mais sobre como acessar os dados no Data Lake Storage Gen1, confira o artigo Ações disponíveis nos dados armazenados.

Próximas etapas