Tutorial: Analisar dados em uma conta de armazenamento

Neste tutorial, você aprenderá a analisar dados localizados em uma conta de armazenamento.

Até agora, abordamos cenários em que os dados residem em bancos de dados no espaço de trabalho. Agora vamos mostrar-lhe como trabalhar com ficheiros em contas de armazenamento. Nesse cenário, usaremos a conta de armazenamento principal do espaço de trabalho e do contêiner que especificamos ao criar o espaço de trabalho.

O nome da conta de armazenamento: contosolake
O nome do contêiner na conta de armazenamento: usuários

Criar ficheiros CSV e Parquet na conta de armazenamento

Execute o código a seguir em um bloco de anotações em uma nova célula de código. Ele cria um ficheiro CSV e um ficheiro Parquet na conta de armazenamento.

Gorjeta

Esta tabela foi criada anteriormente no início rápido, e você pode encontrar as etapas aqui.

%%pyspark
df = spark.sql("SELECT * FROM nyctaxi.passengercountstats")
df = df.repartition(1) # This ensures we'll get a single file during write()
df.write.mode("overwrite").csv("/NYCTaxi/PassengerCountStats_csvformat")
df.write.mode("overwrite").parquet("/NYCTaxi/PassengerCountStats_parquetformat")

Analisar dados numa conta de armazenamento

Você pode analisar os dados em sua conta padrão do Azure Data Lake Storage (ADLS) Gen2 do espaço de trabalho ou pode vincular uma conta de armazenamento ADLS Gen2 ou Blob ao seu espaço de trabalho por meio de "Gerenciar", > "Serviços Vinculados", ">" (As próximas etapas se referirão à conta principal do ADLS Gen2).

No Synapse Studio, vá para o hub de dados e selecione Vinculado.
Vá para Azure Data Lake Storage Gen2>myworkspace (Primary - contosolake).
Selecione usuários (Principal). Você deve ver a pasta NYCTaxi. Dentro você deve ver duas pastas chamadas PassengerCountStats_csvformat e PassengerCountStats_parquetformat.
Abra a pasta PassengerCountStats_parquetformat. Dentro, há um arquivo parquet com um nome como part-00000-2638e00c-0790-496b-a523-578da9a15019-c000.snappy.parquet.

Clique com o botão direito do rato em .parquet, selecione Novo bloco de anotações e selecione Carregar para DataFrame. Um novo bloco de anotações é criado com uma célula como esta:

%%pyspark
abspath = 'abfss://users@contosolake.dfs.core.windows.net/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet'
df = spark.read.load(abspath, format='parquet')
display(df.limit(10))

Anexe à piscina Spark chamada Spark1. Executa a célula. Se encontrar um erro relacionado à falta de núcleos, outra sessão pode estar a usar este pool de Spark. Cancele todas as sessões existentes e tente novamente.
Selecione voltar para a pasta de usuários . Clique com o botão direito do rato no ficheiro .parquet novamente e selecione Novo script SQL>SELECT TOP 100 rows. Ele cria um script SQL como este:
```
SELECT 
    TOP 100 *
FROM OPENROWSET(
    BULK 'https://contosolake.dfs.core.windows.net/users/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet',
    FORMAT='PARQUET'
) AS [result]
```
Na janela de script, verifique se o campo Conectar a está definido como o pool SQL sem servidor incorporado.
Execute o script.

Próximo passo

Orquestre atividades com linhas de processamento

Comentários

Esta página foi útil?

Last updated on 2025-04-04