O que é o Azure Data Lake Storage Gen1?

Nota

Azure Data Lake Storage Gen1 foi descontinuada. Veja o anúncio de descontinuação aqui. Data Lake Storage Gen1 recursos já não estão acessíveis. Se precisar de assistência especial, contacte-nos.

Azure Data Lake Storage Gen1 é um repositório de hiperdimensionamento para cargas de trabalho de análise de macrodados em toda a empresa. O Azure Data Lake permite-lhe capturar dados de qualquer tamanho, tipo e velocidade de ingestão num único local para análises exploratórias e operacionais.

Data Lake Storage Gen1 pode ser acedido a partir do Hadoop (disponível com o cluster do HDInsight) com as APIs REST compatíveis com WebHDFS. Foi concebido para ativar a análise nos dados armazenados e está otimizado para o desempenho de cenários de análise de dados. Data Lake Storage Gen1 inclui todas as capacidades de nível empresarial: segurança, capacidade de gestão, escalabilidade, fiabilidade e disponibilidade.

Azure Data Lake

Principais capacidades

Algumas das principais capacidades de Data Lake Storage Gen1 incluem o seguinte.

Incorporado para o Hadoop

Data Lake Storage Gen1 é um sistema de ficheiros do Apache Hadoop compatível com o Sistema de Ficheiros Distribuído do Hadoop (HDFS) e funciona com o ecossistema do Hadoop. As aplicações ou serviços do HDInsight existentes que utilizam a API WebHDFS podem ser facilmente integrados com Data Lake Storage Gen1. Data Lake Storage Gen1 também expõe uma interface REST compatível com WebHDFS para aplicações.

Pode analisar facilmente os dados armazenados em Data Lake Storage Gen1 com arquiteturas de análise do Hadoop, como o MapReduce ou o Hive. Pode aprovisionar clusters do Azure HDInsight e configurá-los para aceder diretamente aos dados armazenados no Data Lake Storage Gen1.

Armazenamento ilimitado, ficheiros petabyte

Data Lake Storage Gen1 fornece armazenamento ilimitado e pode armazenar uma variedade de dados para análise. Não impõe limites aos tamanhos de conta, tamanhos de ficheiros ou à quantidade de dados que podem ser armazenados num data lake. Os ficheiros individuais podem variar entre kilobytes e petabytes de tamanho. Os dados são armazenados de forma durável ao fazer várias cópias. Não existe um limite de tempo para o qual os dados podem ser armazenados no data lake.

Desempenho otimizado para análise de macrodados

Data Lake Storage Gen1 é criada para executar sistemas analíticos de grande escala que requerem débito maciço para consultar e analisar grandes quantidades de dados. O data lake propaga partes de um ficheiro ao longo de um número de servidores de armazenamento individuais. Isto melhora o débito de leitura ao ler o ficheiro em paralelo para efetuar análise de dados.

Pronto para empresas: altamente disponível e seguro

Data Lake Storage Gen1 fornece disponibilidade e fiabilidade padrão do setor. Os recursos de dados são armazenados de maneira duradoura, ao fazer cópias redundantes para proteger contra quaisquer falhas inesperadas.

Data Lake Storage Gen1 também fornece segurança de nível empresarial para os dados armazenados. Para obter mais informações, veja Proteger dados no Azure Data Lake Storage Gen1.

Todos os dados

Data Lake Storage Gen1 podem armazenar quaisquer dados no seu formato nativo, sem precisar de transformações anteriores. Data Lake Storage Gen1 não requer a definição de um esquema antes de os dados serem carregados, cabendo à arquitetura analítica individual interpretar os dados e definir um esquema no momento da análise. A capacidade de armazenar ficheiros de tamanhos e formatos arbitrários permite Data Lake Storage Gen1 processar dados estruturados, semiestruturados e não estruturados.

Data Lake Storage Gen1 contentores de dados são essencialmente pastas e ficheiros. Opera nos dados armazenados com SDKs, portal do Azure e Azure PowerShell. Se colocar os seus dados no arquivo com estas interfaces e utilizar os contentores adequados, pode armazenar qualquer tipo de dados. Data Lake Storage Gen1 não efetua qualquer processamento especial de dados com base no tipo de dados que armazena.

Proteção de dados

Data Lake Storage Gen1 utiliza Microsoft Entra ID para autenticação e listas de controlo de acesso (ACLs) para gerir o acesso aos seus dados.

Funcionalidade Descrição
Autenticação Data Lake Storage Gen1 integra-se com Microsoft Entra ID para gestão de identidades e acessos para todos os dados armazenados no Data Lake Storage Gen1. Devido à integração, o Data Lake Storage Gen1 beneficia de todas as funcionalidades Microsoft Entra, tais como autenticação multifator, Acesso Condicional, controlo de acesso baseado em funções do Azure, monitorização da utilização de aplicações, monitorização e alertas de segurança, etc. Data Lake Storage Gen1 suporta o protocolo OAuth 2.0 para autenticação na interface REST. Veja Data Lake Storage Gen1 autenticação.
Controlo de acesso Data Lake Storage Gen1 fornece controlo de acesso ao suportar permissões de estilo POSIX expostas pelo protocolo WebHDFS. Pode ativar ACLs na pasta raiz, em subpastas e em ficheiros individuais. Para obter mais informações sobre como funcionam as ACLs no contexto de Data Lake Storage Gen1, veja Controlo de acesso no Data Lake Storage Gen1.
Encriptação Data Lake Storage Gen1 também fornece encriptação para dados armazenados na conta. Especifique as definições de encriptação ao criar uma conta Data Lake Storage Gen1. Pode optar por encriptar os seus dados ou optar por não encriptar. Para obter mais informações, veja Encriptação no Data Lake Storage Gen1. Para obter instruções sobre como fornecer a configuração relacionada com a encriptação, veja Introdução ao Data Lake Storage Gen1 com o portal do Azure.

Para obter instruções sobre como proteger dados em Data Lake Storage Gen1, veja Proteger dados no Azure Data Lake Storage Gen1.

Compatibilidade de aplicações

Data Lake Storage Gen1 é compatível com a maioria dos componentes open source no ecossistema do Hadoop. Também se integra bem com outros serviços do Azure. Para saber mais sobre como pode utilizar Data Lake Storage Gen1 com componentes open source e outros serviços do Azure, utilize as seguintes ligações:

Data Lake Storage Gen1 sistema de ficheiros

Data Lake Storage Gen1 pode ser acedido através do sistema de ficheiros AzureDataLakeFilesystem (adl://) em ambientes do Hadoop (disponível com o cluster do HDInsight). As aplicações e serviços que utilizam adl:// podem tirar partido de otimizações de desempenho adicionais que não estão atualmente disponíveis no WebHDFS. Como resultado, Data Lake Storage Gen1 dá-lhe a flexibilidade de utilizar o melhor desempenho com a opção recomendada de utilizar adl:// ou manter o código existente ao continuar a utilizar a API WebHDFS diretamente. O Azure HDInsight tira partido do AzureDataLakeFilesystem para proporcionar o melhor desempenho no Data Lake Storage Gen1.

Pode aceder aos seus dados no Data Lake Storage Gen1 com adl://<data_lake_storage_gen1_name>.azuredatalakestore.net. Para obter mais informações sobre como aceder aos dados no Data Lake Storage Gen1, veja Ver propriedades dos dados armazenados.

Passos seguintes