Partilhar via


O que é o Azure Data Lake Storage Gen1?

Nota

O Azure Data Lake Storage Gen1 foi desativado. Veja o anúncio da aposentadoria aqui. Os recursos do Data Lake Storage Gen1 não estão mais acessíveis.

O Azure Data Lake Storage Gen1 é um repositório de hiperescala em toda a empresa para cargas de trabalho analíticas de big data. O Azure Data Lake permite-lhe capturar dados de qualquer tamanho, tipo e velocidade de ingestão num único local para análises exploratórias e operacionais.

O Data Lake Storage Gen1 pode ser acessado a partir do Hadoop (disponível com cluster HDInsight) usando as APIs REST compatíveis com WebHDFS. Ele foi projetado para habilitar a análise dos dados armazenados e é ajustado para desempenho em cenários de análise de dados. O Data Lake Storage Gen1 inclui todos os recursos de nível empresarial: segurança, capacidade de gerenciamento, escalabilidade, confiabilidade e disponibilidade.

Azure Data Lake

Capacidades chave

Alguns dos principais recursos do Data Lake Storage Gen1 incluem o seguinte.

Incorporado para o Hadoop

O Data Lake Storage Gen1 é um sistema de arquivos Apache Hadoop compatível com o Hadoop Distributed File System (HDFS) e funciona com o ecossistema Hadoop. Seus aplicativos ou serviços HDInsight existentes que usam a API WebHDFS podem ser facilmente integrados ao Data Lake Storage Gen1. O Data Lake Storage Gen1 também expõe uma interface REST compatível com WebHDFS para aplicativos.

Você pode analisar facilmente os dados armazenados no Data Lake Storage Gen1 usando estruturas analíticas do Hadoop, como MapReduce ou Hive. Você pode provisionar clusters do Azure HDInsight e configurá-los para acessar diretamente os dados armazenados no Data Lake Storage Gen1.

Armazenamento ilimitado, ficheiros petabyte

O Data Lake Storage Gen1 fornece armazenamento ilimitado e pode armazenar uma variedade de dados para análise. Ele não impõe limites para tamanhos de contas, tamanhos de arquivos ou a quantidade de dados que podem ser armazenados em um data lake. Os arquivos individuais podem variar de kilobyte a petabytes de tamanho. Os dados são armazenados de forma durável fazendo várias cópias. Não há limite para a duração do tempo durante o qual os dados podem ser armazenados no data lake.

Desempenho otimizado para análise de macrodados

O Data Lake Storage Gen1 foi criado para executar sistemas analíticos de grande escala que exigem uma taxa de transferência massiva para consultar e analisar grandes quantidades de dados. O data lake propaga partes de um ficheiro ao longo de um número de servidores de armazenamento individuais. Isto melhora o débito de leitura ao ler o ficheiro em paralelo para efetuar análise de dados.

Preparado para empresas: altamente disponível e seguro

O Data Lake Storage Gen1 oferece disponibilidade e confiabilidade padrão do setor. Os recursos de dados são armazenados de maneira duradoura, ao fazer cópias redundantes para proteger contra quaisquer falhas inesperadas.

O Data Lake Storage Gen1 também oferece segurança de nível empresarial para os dados armazenados. Para obter mais informações, consulte Protegendo dados no Azure Data Lake Storage Gen1.

Todos os dados

O Data Lake Storage Gen1 pode armazenar quaisquer dados em seu formato nativo, sem exigir transformações prévias. O Data Lake Storage Gen1 não requer que um esquema seja definido antes que os dados sejam carregados, cabendo à estrutura analítica individual interpretar os dados e definir um esquema no momento da análise. A capacidade de armazenar arquivos de tamanhos e formatos arbitrários possibilita que o Data Lake Storage Gen1 manipule dados estruturados, semiestruturados e não estruturados.

Os contêineres do Data Lake Storage Gen1 para dados são essencialmente pastas e arquivos. Você opera nos dados armazenados usando SDKs, o portal do Azure e o Azure PowerShell. Se você colocar seus dados no armazenamento usando essas interfaces e usando os contêineres apropriados, poderá armazenar qualquer tipo de dados. O Data Lake Storage Gen1 não realiza nenhum tratamento especial de dados com base no tipo de dados que armazena.

Proteção de dados

O Data Lake Storage Gen1 usa o Microsoft Entra ID para autenticação e listas de controle de acesso (ACLs) para gerenciar o acesso aos seus dados.

Funcionalidade Description
Autenticação O Data Lake Storage Gen1 integra-se com o Microsoft Entra ID para gerenciamento de identidade e acesso para todos os dados armazenados no Data Lake Storage Gen1. Devido à integração, o Data Lake Storage Gen1 se beneficia de todos os recursos do Microsoft Entra, como autenticação multifator, Acesso Condicional, controle de acesso baseado em função do Azure, monitoramento de uso de aplicativos, monitoramento e alertas de segurança e assim por diante. O Data Lake Storage Gen1 suporta o protocolo OAuth 2.0 para autenticação na interface REST. Consulte Autenticação do Data Lake Storage Gen1.
Controlo de acesso O Data Lake Storage Gen1 fornece controle de acesso suportando permissões no estilo POSIX expostas pelo protocolo WebHDFS. Você pode habilitar ACLs na pasta raiz, em subpastas e em arquivos individuais. Para obter mais informações sobre como as ACLs funcionam no contexto do Data Lake Storage Gen1, consulte Controle de acesso no Data Lake Storage Gen1.
Encriptação O Data Lake Storage Gen1 também fornece criptografia para os dados armazenados na conta. Você especifica as configurações de criptografia ao criar uma conta do Data Lake Storage Gen1. Pode optar por ter os seus dados encriptados ou optar por não encriptar. Para obter mais informações, consulte Criptografia no Data Lake Storage Gen1. Para obter instruções sobre como fornecer configuração relacionada à criptografia, consulte Introdução ao Data Lake Storage Gen1 usando o portal do Azure.

Para obter instruções sobre como proteger dados no Data Lake Storage Gen1, consulte Protegendo dados no Azure Data Lake Storage Gen1.

Compatibilidade de aplicações

O Data Lake Storage Gen1 é compatível com a maioria dos componentes de código aberto no ecossistema Hadoop. Ele também se integra bem com outros serviços do Azure. Para saber mais sobre como você pode usar o Data Lake Storage Gen1 com componentes de código aberto e outros serviços do Azure, use os seguintes links:

Sistema de arquivos Data Lake Storage Gen1

O Data Lake Storage Gen1 pode ser acessado por meio do sistema de arquivos AzureDataLakeFilesystem (adl://) em ambientes Hadoop (disponível com cluster HDInsight). Os aplicativos e serviços que usam adl:// podem tirar proveito de outras otimizações de desempenho que não estão atualmente disponíveis no WebHDFS. Como resultado, o Data Lake Storage Gen1 oferece a flexibilidade de usar o melhor desempenho com a opção recomendada de usar adl:// ou manter o código existente continuando a usar a API WebHDFS diretamente. O Azure HDInsight aproveita totalmente o AzureDataLakeFilesystem para fornecer o melhor desempenho no Data Lake Storage Gen1.

Você pode acessar seus dados no Data Lake Storage Gen1 usando adl://<data_lake_storage_gen1_name>.azuredatalakestore.neto . Para obter mais informações sobre como acessar os dados no Data Lake Storage Gen1, consulte Exibir propriedades dos dados armazenados.

Próximos passos