Partilhar via


Guias de dados

A plataforma de inteligência de dados Databricks permite que profissionais de dados em toda a sua organização colaborem e produzam soluções de dados usando ativos e ferramentas de dados compartilhados e controlados com segurança.

Esta página ajuda-o a identificar o ponto de partida correto para o seu caso de uso.

Muitas tarefas no Azure Databricks exigem permissões elevadas. Muitas organizações restringem essas permissões elevadas a um pequeno número de usuários ou equipes. Esta página desambigua as ações que podem ser realizadas pela maioria dos utilizadores do espaço de trabalho das ações restritas a utilizadores privilegiados.

Os administradores de espaço de trabalho podem ajudá-lo a determinar se você deve solicitar acesso a ativos ou permissões elevadas.

Encontrar e aceder a dados

Esta seção fornece uma breve visão geral das tarefas para ajudá-lo a descobrir ativos de dados disponíveis para você. A maioria dessas tarefas pressupõe que um administrador tenha configurado permissões em ativos de dados. Consulte Configurar o acesso a dados.

Área de destaque Resources
Descoberta de dados Para obter uma visão geral mais detalhada das tarefas de descoberta de dados, consulte Descobrir dados.
Catalogs Os catálogos são o objeto de nível superior no modelo de governança de dados do Unity Catalog. Use o Gerenciador de Catálogos para localizar tabelas, exibições e outros ativos de dados. Consulte Explorar objetos de banco de dados.
Armazenamento conectado Se você tiver acesso a recursos de computação, poderá usar comandos internos para explorar arquivos no armazenamento conectado. Consulte Explorar armazenamento e localizar arquivos de dados.
Carregar ficheiros locais Por padrão, os usuários têm permissões para carregar pequenos arquivos de dados de sua máquina local, como CSVs. Consulte Criar ou modificar uma tabela usando o upload de arquivos.

Trabalhar com dados

Esta seção fornece uma visão geral das tarefas de dados comuns e das ferramentas usadas para executar essas tarefas.

Para todas as tarefas descritas, os usuários devem ter permissões adequadas para ferramentas, recursos de computação, dados e outros artefatos do espaço de trabalho. Consulte Configurar acesso a dados e Configurar espaços de trabalho e infraestrutura.

Área de destaque Resources
Objetos de banco de dados Além de tabelas e exibições, o Azure Databricks usa outros objetos de banco de dados protegíveis, como volumes, para controlar dados com segurança. Consulte Objetos de banco de dados no Azure Databricks.
Permissões de dados O Unity Catalog controla todas as operações de leitura e gravação em espaços de trabalho habilitados. Você deve ter permissões adequadas para concluir essas operações. Consulte Objetos protegíveis no Catálogo Unity.
ETL As cargas de trabalho de extrair, transformar e carregar (ETL) estão entre os usos mais comuns do Apache Spark e do Azure Databricks, e a maioria da plataforma tem recursos criados e otimizados para ETL. Consulte o Tutorial: Como construir um pipeline ETL com Lakeflow Spark Declarative Pipelines.
Queries
Painéis e percepções
  • Os painéis de IA/BI permitem extrair e visualizar insights facilmente na interface do usuário. Consulte Dashboards.
  • Os espaços Genie usam sugestões de texto para responder a perguntas e fornecer insights baseados nos seus dados. Consulte O que é um espaço AI/BI Genie.
Ingest
  • O Lakeflow Connect ingere dados de sistemas externos populares. Consulte Conectores gerenciados no Lakeflow Connect.
  • O Auto Loader pode ser usado com os pipelines declarativos de Lakeflow Spark ou com trabalhos de streaming estruturado para ingerir dados incrementalmente a partir do armazenamento de objetos na nuvem. Consulte O que é Auto Loader?.
  • Você pode usar Lakeflow Spark Declarative Pipelines ou Structured Streaming para ingerir dados de filas de mensagens, incluindo Kafka. Consulte Consultar dados de streaming.
Transformations O Azure Databricks usa sintaxe e ferramentas comuns para transformações que variam em complexidade, desde instruções SQL CTAS até aplicativos de streaming quase em tempo real.
IA e aprendizagem automática A Databricks Data Intelligence Platform fornece um conjunto de ferramentas para ciência de dados, aprendizado de máquina e aplicações de IA. Veja IA e aprendizado de máquina no Databricks.

Configurar o acesso a dados

A maioria dos espaços de trabalho do Azure Databricks depende de um administrador de espaço de trabalho ou de outros usuários avançados para configurar conexões com fontes de dados externas e impor privilégios a ativos de dados com base na associação à equipe, região ou funções. Esta seção fornece uma visão geral das tarefas comuns para configurar e controlar o acesso a dados que exigem permissões elevadas.

Note

Antes de solicitar permissões elevadas para configurar uma nova ligação a uma fonte de dados, confirme se apenas lhe faltam privilégios numa ligação, catálogo ou tabela existente. Se uma fonte de dados não estiver disponível, consulte sua organização para obter a política para adicionar novos dados ao seu espaço de trabalho.

Área de destaque Resources
Catálogo Unity
  • O Unity Catalog potencializa os recursos de governança de dados incorporados à Plataforma de Inteligência de Dados Databricks. Consulte O que é o Unity Catalog?.
  • Os administradores de conta do Databricks, os administradores do espaço de trabalho e os administradores do metastore têm privilégios padrão para gerenciar os privilégios de dados do Catálogo Unity para os usuários. Consulte Gerenciar privilégios no Catálogo Unity.
Ligações e acessos
Partilha de catálogos e painéis
  • Os administradores podem criar novos catálogos. Os catálogos fornecem uma abstração de alto nível para isolamento de dados e podem ser vinculados a espaços de trabalho individuais ou compartilhados em todos os espaços de trabalho de uma conta. Ver Criar catálogos.
  • Os painéis de IA/BI incentivam os proprietários a incorporar as suas credenciais ao publicar, garantindo que os espectadores possam obter insights a partir dos resultados partilhados. Para obter detalhes, consulte Compartilhar um painel.

Configurar espaços de trabalho e infraestrutura

Esta secção oferece uma visão geral das tarefas comuns associadas à administração dos ativos e infraestruturas do espaço de trabalho. Amplamente definidos, os ativos do espaço de trabalho incluem o seguinte:

  • Recursos de computação: Os recursos de computação incluem clusters interativos multiusos, armazéns SQL, clusters de tarefas e computação de pipeline. Um usuário ou carga de trabalho deve ter permissões para se conectar a recursos de computação em execução para processar a lógica especificada.

    Note

    Os usuários que não têm acesso para se conectar a nenhum recurso de computação têm funcionalidade muito limitada no Azure Databricks.

  • Ferramentas da plataforma : A plataforma Databricks Data Intelligence fornece um conjunto de ferramentas adaptadas a diferentes casos de uso e personas, como notebooks, Databricks SQL e Mosaic AI. Os administradores podem personalizar configurações que incluem comportamentos padrão, recursos opcionais e acesso de usuário para muitas dessas ferramentas.

  • Artefactos: Os artefactos incluem blocos de anotações, consultas, painéis, arquivos, bibliotecas, pipelines e tarefas. Os artefatos contêm código e configurações que os usuários criam para executar as ações desejadas em seus dados.

Important

O usuário que cria um ativo de espaço de trabalho recebe a função de proprietário por padrão. Para a maioria dos ativos, os proprietários podem conceder permissões a qualquer outro usuário ou grupo no espaço de trabalho.

Para garantir que os dados e o código estejam seguros, o Databricks recomenda configurar a função de proprietário para todos os artefatos e recursos de computação implantados em um espaço de trabalho de produção.

Área de destaque Resources
Direitos de espaço de trabalho Os direitos de espaço de trabalho incluem acesso básico ao espaço de trabalho, acesso ao Databricks SQL e criação irrestrita de cluster. Consulte Gerenciar direitos.
Políticas de acesso a recursos de computação &
  • A maioria dos custos no Azure Databricks são para recursos de computação. Controlar quais usuários têm a capacidade de configurar, implantar, iniciar e usar vários recursos é vital para controlar os custos. Consulte Visão geral da computação clássica.
  • As políticas de computação funcionam em conjunto com os direitos de computação do espaço de trabalho para garantir que os usuários autorizados implantem recursos de computação somente seguindo as regras de configuração especificadas. Consulte Criar e gerenciar políticas de computação.
  • Os administradores podem configurar comportamentos padrão, políticas de acesso a dados e acesso de usuário a armazéns SQL. Consulte Configurações de administração do SQL warehouse.
Ferramentas da plataforma Use o console de administração para configurar comportamentos que vão desde personalizar a aparência do espaço de trabalho até habilitar ou desabilitar produtos e recursos. Consulte Gerenciar seu espaço de trabalho.
ACLs do espaço de trabalho As ACLs (listas de controle de acesso) do espaço de trabalho controlam como os usuários e grupos podem interagir com os ativos do espaço de trabalho, incluindo recursos de computação, artefatos de código e trabalhos. Consulte Listas de controle de acesso.

Produção de cargas de trabalho

Todos os produtos Azure Databricks foram criados para acelerar o caminho do desenvolvimento à produção, bem como para obter escala e estabilidade. Esta seção fornece uma breve introdução ao conjunto de ferramentas recomendadas para colocar cargas de trabalho em produção.

Área de destaque Resources
Condutas ETL Lakeflow Spark Declarative Pipelines fornece uma sintaxe declarativa para a construção e implementação de pipelines ETL. Veja Lakeflow Spark Declarative Pipelines.
Orchestration Os trabalhos permitem a definição de fluxos de trabalho complexos com dependências, desencadeadores e agendas. Veja Lakeflow Jobs.
CI/CD Os pacotes de ativos Databricks facilitam o gerenciamento e a implantação de dados, ativos e artefatos em espaços de trabalho. Consulte O que são Databricks Asset Bundles?.