Ler em inglês

Compartilhar via


Explorar os dados de origem de um pipeline de dados

Uma primeira etapa comum na criação de um pipeline de dados é entender os dados de origem do pipeline. Nesta etapa, você executará os comandos dos Utilitários do Databricks e do PySpark em um notebook para examinar os dados de origem e os artefatos.

Para saber mais sobre a análise exploratória de dados, consulte Análise exploratória de dados no Azure Databricks: ferramentas e técnicas.

Vídeo: introdução aos notebooks do Databricks

Para obter uma introdução aos notebooks do Databricks, assista a este vídeo:

Abra o notebook de exploração de dados

  1. Na barra lateral, clique em ícone NovoNovo e selecione Notebook no menu. O bloco de anotações é aberto com um nome padrão que você pode substituir.

  2. Insira um nome para o notebook, por exemplo Explore songs data. Por padrão:

    • Python é o idioma selecionado.
    • O notebook é anexado ao último cluster usado. Nesse caso, o cluster que você criou na Etapa 1: Criar um cluster.
  3. Para exibir o conteúdo do diretório que contém o conjunto de dados, insira o seguinte na primeira célula do notebook, clique em Executar menu e selecione Executar célula.

    Bash
    %fs ls "/databricks-datasets/songs"
    
    caminho name tamanho modificationTime
    dbfs:/databricks-datasets/songs/README.md README.md 1719 1454620183000
    dbfs:/databricks-datasets/songs/data-001/ data-001/ 0 1672791237846
    dbfs:/databricks-datasets/songs/data-002/ data-002/ 0 1672791237846

Explorar os dados

  1. O arquivo README tem informações sobre o conjunto de dados, incluindo uma descrição do esquema de dados. As informações do esquema são usadas na próxima etapa na ingestão de dados. Para exibir o conteúdo do README, clique em Cursor para baixo no menu de ações da célula, selecione Adicionar célula abaixo, insira o seguinte na nova célula, clique em Executar menu e selecione Executar célula.

    Bash
    %fs head --maxBytes=10000 "/databricks-datasets/songs/README.md"
    
    Sample of Million Song Dataset
    ===============================
    
    ## Source
    This data is a small subset of the [Million Song Dataset](http://labrosa.ee.columbia.edu/millionsong/).
    The original data was contributed by The Echo Nest.
    Prepared by T. Bertin-Mahieux <tb2332 '@' columbia.edu>
    
    ## Attribute Information
    - artist_id:string
    - artist_latitude:double
    - artist_longitude:double
    - artist_location:string
    - artist_name:string
    - duration:double
    - end_of_fade_in:double
    - key:int
    - key_confidence:double
    - loudness:double
    - release:string
    - song_hotnes:double
    - song_id:string
    - start_of_fade_out:double
    - tempo:double
    - time_signature:double
    - time_signature_confidence:double
    - title:string
    - year:double
    - partial_sequence:int
    ...
    
  2. Os registros usados neste exemplo estão no diretório /databricks-datasets/songs/data-001/. Para exibir o conteúdo desse diretório, clique em Cursor para baixo no menu de ações da célula, selecione Adicionar célula abaixo, insira o seguinte na nova célula, clique em Executar menu e selecione Executar célula.

    Bash
    %fs ls "/databricks-datasets/songs/data-001"
    
    caminho name tamanho modificationTime
    dbfs:/databricks-datasets/songs/data-001/header.txt header.txt 377 1454633901000
    dbfs:/databricks-datasets/songs/data-001/part-00000 part-00000 52837 1454547464000
    dbfs:/databricks-datasets/songs/data-001/part-00001 part-00001 52469 1454547465000
  3. Como o README e os nomes dos arquivos não indicam o formato do arquivo, você pode visualizar uma amostra dos registros para entender melhor o conteúdo e o formato de cada registro. Para ler e exibir os dez primeiros registros de um dos arquivos de dados, clique em Cursor para Baixo no menu de ações da célula, selecione Adicionar Célula Abaixo, insira o seguinte na nova célula, clique em Executar Menu e selecione Executar Célula.

    Bash
    %fs head --maxBytes=10000 "/databricks-datasets/songs/data-001/part-00000"
    
     AR81V6H1187FB48872  nan     nan             Earl Sixteen    213.7073        0.0     11      0.419   -12.106 Soldier of Jah Army     nan     SOVNZSZ12AB018A9B8      208.289 125.882 1       0.0     Rastaman        2003    --
     ARVVZQP11E2835DBCB  nan     nan             Wavves  133.25016       0.0     0       0.282   0.596   Wavvves 0.471578247701  SOJTQHQ12A8C143C5F      128.116 89.519  1       0.0     I Want To See You (And Go To The Movies)        2009    --
     ARFG9M11187FB3BBCB  nan     nan     Nashua USA      C-Side  247.32689       0.0     9       0.612   -4.896  Santa Festival Compilation 2008 vol.1   nan     SOAJSQL12AB0180501      242.196 171.278 5       1.0     Loose on the Dancefloor 0       225261
     ...
    

    Você pode observar algumas coisas sobre os dados exibindo um exemplo dos registros. Você usará essas observações posteriormente ao processar os dados:

    • Os registros não contêm um cabeçalho. Em vez disso, o cabeçalho é armazenado em um arquivo separado no mesmo diretório.
      • Os arquivos parecem estar no formato (TSV).
      • Alguns campos estão ausentes ou são inválidos.
  4. Para explorar e analisar ainda mais os dados, use essas observações para carregar os dados da música formatados em TSV em um PySpark DataFrame. Para isso, clique em Cursor para Baixo no menu de ações da célula, selecione Adicionar Célula Abaixo, insira o seguinte na nova célula, e clique em Executar Menu>Executar Célul.

    Python
    df = spark.read.format('csv').option("sep", "\t").load('dbfs:/databricks-datasets/songs/data-001/part-00000')
    df.display()
    

    Como o arquivo de dados não tem um cabeçalho, os nomes das colunas são exibidos como _c0, _c1e assim por diante. Cada coluna é interpretada como um string independentemente do tipo de dados real. A ingestão dos dados brutos na próxima etapa mostra um exemplo de como você pode impor um esquema válido ao carregar os dados.

    DataFrame criado com base nos dados brutos das músicas