Compartilhar via


Guias de dados

A Plataforma de Inteligência de Dados do Databricks permite que os profissionais de dados em toda a sua organização colaborem e criem soluções de dados usando ferramentas e ativos de dados controlados com segurança.

Este artigo busca ajudá-lo a identificar o ponto de partida correto para seu caso de uso.

Muitas tarefas no Azure Databricks exigem permissões elevadas. Muitas organizações restringem essas permissões elevadas a um pequeno número de usuários ou equipes. Este artigo desambigua ações que podem ser concluídas pela maioria dos usuários do workspace de ações restritas a usuários privilegiados.

Os administradores do workspace podem ajudá-lo a determinar se você deve solicitar acesso a ativos ou solicitar permissões elevadas.

Localizar e acessar dados

Esta seção fornece uma breve visão geral das tarefas para ajudá-lo a descobrir os ativos de dados disponíveis para você. A maioria dessas tarefas pressupõe que um administrador configurou permissões em ativos de dados. Confira Configurar o acesso a dados.

Área de funcionalidades Resources
Descoberta de dados Para obter uma visão geral mais detalhada das tarefas de descoberta de dados, consulte Descoberta de dados.
Catalogs Catálogos são o objeto de nível superior no modelo de governança de dados do Catálogo do Unity. Use o do Catalog Explorer para localizar tabelas, exibições e outros ativos de dados. Confira Explorar objetos do banco de dados.
Armazenamento conectado Se você tiver acesso aos recursos de computação, poderá usar comandos internos para explorar arquivos no armazenamento conectado. Consulte Explorar o armazenamento e localizar arquivos de dados.
Carregar arquivos locais Por padrão, os usuários têm permissões para carregar arquivos de dados pequenos do computador local, como CSVs. Veja Criar ou modificar uma tabela usando o upload de arquivo.

Trabalhar com dados

Esta seção fornece uma visão geral das tarefas de dados comuns e das ferramentas usadas para executar essas tarefas.

Para todas as tarefas descritas, os usuários devem ter permissões adequadas para ferramentas, recursos de computação, dados e outros artefatos de workspace. Veja Configurar acesso a dados e Configurar workspaces e infraestrutura.

Área de funcionalidades Resources
Objetos de banco de dados Além de tabelas e exibições, o Azure Databricks usa outros objetos de banco de dados protegíveis, como volumes, para controlar dados com segurança. Confira Objetos de banco de dados no Azure Databricks.
Permissões de dados O Catálogo do Unity controla todas as operações de leitura e gravação em workspaces habilitados. Você deve ter permissões adequadas para concluir essas operações. Veja Objetos protegíveis no Catálogo do Unity.
ETL Cargas de trabalho de extração, transformação e carregamento (ETL) estão entre os usos mais comuns do Apache Spark e Azure Databricks, e a maior parte da plataforma possui recursos criados e otimizados para ETL. Confira o Tutorial: Criar um pipeline ETL com o Lakeflow Spark Declarative Pipelines.
Queries
  • Todas as transformações, relatórios, análises ou execuções de treinamento de modelo começam com uma consulta em uma tabela, exibição ou arquivos de dados. Você pode consultar dados usando processamento em lote ou de fluxo. Veja Consultar dados.
  • Execute consultas ad hoc usando o editor de consultas SQL ou notebooks para acessar tabelas, visões e outros ativos de dados. Consulte Escrever consultas e explorar dados no novo editor SQL e nos notebooks do Databricks.
Painéis e insights
  • Os painéis de IA/BI permitem extrair e visualizar insights facilmente na interface do usuário. Consulte Dashboards.
  • Os espaços do Genie usam prompts de texto para responder a perguntas e fornecer insights informados por seus dados. Veja O que é um espaço Genie de IA/BI.
Ingest
Transformations O Azure Databricks usa sintaxe e ferramentas comuns para transformações que variam em complexidade, desde instruções do SQL CTAS até aplicativos de streaming quase em tempo real.
IA e aprendizado de máquina A Plataforma de Inteligência de Dados do Databricks fornece um conjunto de ferramentas para ciência de dados, aprendizado de máquina e aplicativos de IA. Confira IA e Machine Learning no Databricks.

Configurar o acesso a dados

A maioria dos workspaces do Azure Databricks depende de um administrador de workspace ou de outros usuários avançados para configurar conexões com fontes de dados externas e impor privilégios a ativos de dados com base na associação de equipe, região ou funções. Esta seção fornece uma visão geral das tarefas comuns para configurar e controlar acess de dados que exigem permissões elevadas.

Note

Antes de solicitar permissões elevadas para configurar uma nova conexão com uma fonte de dados, confirme se você está apenas perdendo privilégios em uma conexão, catálogo ou tabela existente. Se uma fonte de dados não estiver disponível, consulte sua organização para a política para adicionar novos dados ao seu workspace.

Área de funcionalidades Resources
Catálogo do Unity
  • O Catálogo do Unity capacita os recursos de governança de dados integrados à Plataforma de Inteligência de Dados do Databricks. Veja O que é o Catálogo do Unity?.
  • Administradores de conta do Databricks, administradores de workspace e administradores de metastore têm privilégios padrão para gerenciar privilégios de dados do Unity Catalog para usuários. Confira Gerenciar privilégios no Catálogo do Unity.
Conexões e acesso
Sharing
  • O Compartilhamento Delta é o núcleo da plataforma de compartilhamento de dados seguros do Azure Databricks, que inclui Databricks Marketplace e Salas Limpas. Confira Compartilhar dados e ativos de IA com segurança com usuários em outras organizações.
  • Os administradores podem criar novos catálogos. Os catálogos fornecem uma abstração de alto nível para isolamento de dados e podem ser vinculados a espaços de trabalho individuais ou compartilhados em todos os espaços de trabalho de uma conta. Veja Crie catálogos.- Os painéis de IA/BI incentivam os proprietários a incorporar suas credenciais ao publicar, garantindo que os visualizadores possam obter insights dos resultados compartilhados. Para obter detalhes, consulte Compartilhar um painel.

Configurar espaços de trabalho e infraestrutura

Esta seção fornece uma visão geral das tarefas comuns associadas à administração de ativos e infraestrutura do ambiente de trabalho. Os ativos de workspace amplamente definidos incluem o seguinte:

  • Recursos de computação: os recursos de computação incluem clusters interativos para todos os fins, SQL warehouses, clusters de trabalho e computação de pipeline. Um usuário ou carga de trabalho deve ter permissões para se conectar à execução de recursos de computação para processar a lógica especificada.

    Note

    Os usuários que não têm acesso para se conectar a recursos de computação têm funcionalidades muito limitadas no Azure Databricks.

  • Ferramentas da Plataforma: A Plataforma Data Intelligence do Databricks oferece um conjunto de ferramentas adaptadas a diferentes casos de uso e perfis, como notebooks, Databricks SQL e Mosaic AI. Os administradores podem personalizar configurações que incluem comportamentos padrão, recursos opcionais e acesso do usuário para muitas dessas ferramentas.

  • Artefatos: os artefatos incluem notebooks, consultas, painéis, arquivos, bibliotecas, pipelines e trabalhos. Os artefatos contêm código e configurações que os usuários criarem para executar ações desejadas em seus dados.

Important

Por padrão, o usuário que cria um ativo de espaço de trabalho recebe a função de proprietário por padrão. Para a maioria dos ativos, os proprietários podem conceder permissões a qualquer outro usuário ou grupo no workspace.

Para garantir que os dados e o código sejam seguros, o Databricks recomenda configurar a função de proprietário para todos os artefatos e recursos de computação implantados em um workspace de produção.

Área de funcionalidades Resources
Direitos de workspace Os direitos do workspace incluem acesso básico ao workspace, acesso ao SQL do Databricks e criação irrestrita de cluster. Confira Gerenciar direitos.
Políticas de acesso a recursos de computação &
  • A maioria dos custos no Azure Databricks é para recursos de computação. Controlar quais usuários têm a capacidade de configurar, implantar, iniciar e usar vários recursos é essencial para controlar os custos. Confira a visão geral da computação clássica.
  • As políticas de computação funcionam em conjunto com autorizações de computação do workspace para garantir que os usuários autorizados só implantem recursos de computação que sigam as regras de configuração especificadas. Consulte Criar e gerenciar políticas de computação.
  • Os administradores podem configurar comportamentos padrão, políticas de acesso a dados e acesso do usuário a sql warehouses. Confira Configurações de administrador do SQL warehouse.
Ferramentas de plataforma Use o console de administração para configurar comportamentos que vão desde personalizar a aparência do workspace até habilitar ou desabilitar produtos e recursos. Confira Gerenciar seu workspace.
Workspace ACLs As ACLs (listas de controle de acesso do workspace) regem como usuários e grupos podem interagir com ativos de workspace, incluindo recursos de computação, artefatos de código e trabalhos. Confira Listas de Controle de Acesso.

Produção de cargas de trabalho

Todos os produtos do Azure Databricks são criados para acelerar o caminho do desenvolvimento para a produção e para escala e estabilidade. Esta seção fornece uma breve introdução ao conjunto de ferramentas recomendado para colocar cargas de trabalho em produção.

Área de funcionalidades Resources
Pipelines de ETL O Lakeflow Spark Declarative Pipelines fornece uma sintaxe declarativa para compilar e produzir pipelines ETL. Consulte Pipelines Declarativos do Lakeflow Spark.
Orchestration Os trabalhos permitem que você defina fluxos de trabalho complexos com dependências, gatilhos e agendamentos. Consulte Trabalhos do Lakeflow.
CI/CD Os Pacotes de Ativos do Databricks facilitam o gerenciamento e a implantação de dados, ativos e artefatos em workspaces. Veja que são pacotes de ativos do Databricks?.