Tutorial: Gravar em uma tabela Delta armazenada no Azure Data Lake Storage Gen2 (Visualização Pública)

Este tutorial mostra como você pode criar um trabalho do Stream Analytics para gravar em uma tabela Delta no Azure Data Lake Storage Gen2. Neste tutorial, você aprenderá a:

  • Implantar um gerador de eventos que envie dados de amostra para seu hub de eventos
  • Criar um trabalho de Stream Analytics
  • Configurar o armazenamento do Azure Data Lake Gen2 com uma tabela delta
  • Executar o trabalho do Stream Analytics

Pré-requisitos

Antes de começar, conclua as etapas a seguir:

Criar um trabalho de Stream Analytics

  1. Entre no portal do Azure.

  2. Selecione Todos os serviços no menu esquerdo.

  3. Passe o mouse sobre Trabalhos do Stream Analytics na seção Analytics e selecione + (mais).

    Screenshot that shows the selection of Stream Analytics jobs in the All services page.

  4. Selecione Criar um recurso no canto superior esquerdo do portal do Azure.

  5. Selecione Analytics>Trabalho do Stream Analytics na lista de resultados.

  6. Na página Novo trabalho do Stream Analytics, siga estas etapas:

    1. Para Assinatura, selecione sua assinatura do Azure.
    2. Em Grupo de recursos, selecione o mesmo recurso usado anteriormente na implantação do TollApp.
    3. Em Nome, insira um nome para o trabalho. O nome do trabalho do Stream Analytics pode conter somente caracteres alfanuméricos, hifens e sublinhados e deve ter entre 3 e 63 caracteres.
    4. Em Ambiente de hospedagem, confirme se Nuvem está selecionado.
    5. Em Unidades de fluxo, selecione 1. As unidades de streaming representam os recursos de computação necessários para executar um trabalho. Para saber mais sobre como dimensionar unidades de streaming, consulte o artigo Entendendo e ajustando as unidades de streaming.

    Screenshot that shows the Create Stream Analytics job page.

  7. Selecione Revisar + criar na parte inferior da página.

  8. Na página Revisar + criar, analise as configurações e selecione Criar para criar uma página do Stream Analytics.

  9. Na página de implantação, selecione Acessar recurso para navegar até a página Trabalho do Stream Analytics.

Configurar entrada de trabalho

A próxima etapa é definir uma fonte de entrada para o trabalho ler os dados usando o hub de eventos criado na implantação do TollApp.

  1. Localize o trabalho do Stream Analytics criado na seção anterior.

  2. Na seção Topologia do Trabalho do trabalho do Stream Analytics, clique em Entradas.

  3. Selecione + Adicionar entrada e Hub de eventos.

    Screenshot that shows the Inputs page.

  4. Preencha o formulário de entrada com os seguintes valores criados por meio do Modelo TollApp do Azure:

    1. Para Alias de Entrada, insira entrystream.

    2. Escolha Selecionar o Hub de Eventos nas suas assinaturas.

    3. Para Assinatura, selecione sua assinatura do Azure.

    4. Em Namespace do hub de eventos, selecione o namespace do hub de eventos criado na seção anterior.

    5. Use as opções padrão nas configurações restantes e escolha Salvar.

      Screenshot that shows the selection of the input event hub.

Configurar saída de trabalho

A próxima etapa é definir um coletor de saída no qual o trabalho poderá gravar os dados. Neste tutorial, você gravará a saída em uma tabela Delta no Azure Data Lake Storage Gen2.

  1. Na seção Topologia do Trabalho do trabalho do Stream Analytics, selecione a opção Saídas.

  2. Selecione + Adicionar saída>Armazenamento de blobs/ADLS Gen2.

    Screenshot that shows the Outputs page.

  3. Preencha o formulário de saída com os seguintes detalhes e clique em Salvar:

    1. Para Alias de saída, digite DeltaOutput.

    2. Escolha Selecionar Armazenamento de Blobs/ADLS Gen2 nas suas assinaturas.

    3. Para Assinatura, selecione sua assinatura do Azure.

    4. Para Conta de Armazenamento, escolha a conta ADLS Gen2 (aquela que começa com o tollapp) que você criou.

    5. Para contêiner, selecione Criar e forneça um nome de contêiner exclusivo.

    6. Em Formato de Serialização de Eventos, selecione Delta Lake (Versão prévia). Embora o Delta Lake esteja listado como uma das opções aqui, ele não é um formato de dados. O Delta Lake usa arquivos Parquet com controle de versão para armazenar seus dados. Para saber mais sobre o Delta Lake.

    7. Para Caminho da tabela Delta, insira a pasta do tutorial/tabela delta.

    8. Use as opções padrão nas configurações restantes e escolha Salvar.

      Screenshot that shows configuration of the output.

Criar consultas

Neste ponto, você tem um trabalho do Stream Analytics configurado para ler um fluxo de dados de entrada. A próxima etapa é criar uma consulta que analisa os dados em tempo real. As consultas usam uma linguagem semelhante a SQL que tem algumas extensões específicas para o Stream Analytics.

  1. Selecione Consulta em Topologia do trabalho no menu à esquerda.

  2. Insira a consulta a seguir na janela de consulta. Neste exemplo, a consulta lê os dados dos Hubs de Eventos e copia os valores selecionados para uma tabela Delta no ADLS Gen2.

     SELECT State, CarModel.Make, TollAmount
     INTO DeltaOutput
     FROM EntryStream TIMESTAMP BY EntryTime
    
  3. Selecione Salvar consulta na barra de ferramentas.

    Screenshot that shows query for the job.

Iniciar o trabalho do Stream Analytics e verificar a saída

  1. Retorne à página de visão geral do trabalho no portal do Azure e selecione Iniciar.

    Screenshot that shows the selection of Start job button on the Overview page.

  2. Na página Iniciar trabalho, confirme se Agora está selecionado para “Hora de início da saída do trabalho” e, em seguida, clique em Iniciar na parte inferior da página.

    Screenshot that shows the selection of Start job page.

  3. Após alguns minutos, no portal, localize a conta de armazenamento e o contêiner que você configurou como saída para o trabalho. Agora você pode ver a tabela Delta na pasta especificada no contêiner. O trabalho leva alguns minutos para ser iniciado pela primeira vez. Depois disso, ele continua sendo executado à medida que os dados chegam.

    Screenshot that shows output data files in the container.

Limpar os recursos

Quando não forem mais necessários, exclua o grupo de recursos, o trabalho do Stream Analytics e todos os recursos relacionados. A exclusão do trabalho evita a cobrança das unidades de streaming consumidas por ele. Se você está planejando usar o trabalho no futuro, pode interrompê-lo e reiniciar mais tarde, quando necessário. Se você não for mais usar o trabalho, exclua todos os recursos criados neste tutorial usando as seguintes etapas:

  1. No menu à esquerda no Portal do Azure, selecione Grupos de recursos e selecione o nome do recurso criado.
  2. Em sua página de grupo de recursos, selecione Excluir, digite o nome do recurso para excluir na caixa de texto e selecione Excluir.

Próximas etapas

Neste tutorial, você criou um trabalho simples do Stream Analytics, filtrou os dados de entrada e gravou os resultados em uma tabela Delta na conta do ADLS Gen2. Para saber mais sobre os trabalhos do Stream Analytics: