Base de dados Lake

Artigo
03/25/2023

A base de dados lake no Azure Synapse Analytics permite que os clientes reúnam a estrutura da base de dados, meta informações sobre os dados armazenados e uma possibilidade de descrever como e onde os dados devem ser armazenados. A base de dados lake aborda o desafio dos data lakes atuais, onde é difícil compreender como os dados são estruturados.

Descrição geral da base de dados lake

Estruturador de bases de dados

O novo estruturador de bases de dados no Synapse Studio dá-lhe a possibilidade de criar um modelo de dados para a sua base de dados lake e adicionar informações adicionais à mesma. Cada Entidade e Atributo pode ser descrito para fornecer mais informações sobre o modelo, que não só contém Entidades, mas também relações. Em particular, a incapacidade de modelar relações tem sido um desafio para a interação no data lake. Este desafio é agora abordado com um estruturador integrado que fornece possibilidades que estão disponíveis em bases de dados, mas não no lago. Além disso, a capacidade de adicionar descrições e possíveis valores de demonstração ao modelo permite que as pessoas que interagem com o mesmo no futuro tenham informações onde precisam dela para obter uma melhor compreensão sobre os dados.

Armazenamento de dados

As bases de dados lake utilizam um data lake na conta de Armazenamento do Azure para armazenar os dados da base de dados. Os dados podem ser armazenados no formato Parquet, Delta ou CSV e podem ser utilizadas definições diferentes para otimizar o armazenamento. Cada base de dados lake utiliza um serviço ligado para definir a localização da pasta de dados de raiz. Para cada entidade, as pastas separadas são criadas por predefinição nesta pasta de base de dados no data lake. Por predefinição, todas as tabelas numa base de dados lake utilizam o mesmo formato, mas os formatos e a localização dos dados podem ser alterados por entidade, se tal for pedido.

Nota

A publicação de uma base de dados lake não cria nenhuma das estruturas ou esquemas subjacentes necessários para consultar os dados no Spark ou NO SQL. Após a publicação, carregue os dados para a base de dados do lake com pipelines para começar a consultar os mesmos .

Atualmente, o suporte de formato Delta para bases de dados lake não é suportado no Synapse Studio.

A sincronização de objetos de base de dados lake entre o armazenamento e o Synapse é unidirecional. Certifique-se de que efetua qualquer modificação de esquema ou criação de objetos da base de dados lake com o estruturador de bases de dados no Synapse Studio. Se, em vez disso, fizer essas alterações a partir do Spark ou diretamente no armazenamento, as definições das bases de dados do lake ficarão dessincronizadas. Se isto acontecer, poderá ver definições antigas da base de dados lake no estruturador da base de dados. Terá de replicar e publicar essas alterações no estruturador de bases de dados para voltar a sincronizar as suas bases de dados lake.

Computação da base de dados

A base de dados lake está exposta no conjunto de SQL sem servidor do Synapse SQL e o Apache Spark fornece aos utilizadores a capacidade de desassociar o armazenamento da computação. Os metadados associados à base de dados lake facilitam que diferentes motores de computação forneçam não só uma experiência integrada, mas também utilizem informações adicionais (por exemplo, relações) que não eram originalmente suportadas no data lake.

Passos seguintes

Continue a explorar as capacidades do estruturador de bases de dados com as ligações abaixo.

Base de dados Lake

Estruturador de bases de dados

Armazenamento de dados

Computação da base de dados

Passos seguintes

Recursos adicionais