Guia de início rápido: analisar com o Apache Spark

Artigo
12/04/2024

Neste tutorial, você aprenderá as etapas básicas para carregar e analisar dados com o Apache Spark for Azure Synapse.

Pré-requisitos

Certifique-se de ter colocado os dados de exemplo na conta de armazenamento principal.

Criar um pool do Apache Spark sem servidor

No Synapse Studio, no painel esquerdo, selecione Gerenciar>pools do Apache Spark.
Selecione Novo
Para o nome do pool do Apache Spark, digite Spark1.
Para Tamanho do nó , digite Pequeno.
Para Número de nós Defina o mínimo para 3 e o máximo para 3
Selecione Rever + criar>Criar. Seu pool Apache Spark estará pronto em alguns segundos.

Entenda os pools do Apache Spark sem servidor

Um pool do Spark sem servidor é uma maneira de indicar como um usuário deseja trabalhar com o Spark. Quando você começa a usar um pool, uma sessão do Spark é criada, se necessário. O pool controla quantos recursos do Spark serão usados por essa sessão e quanto tempo a sessão durará antes de ser pausada automaticamente. Você paga pelos recursos de faísca usados durante essa sessão e não pelo pool em si. Desta forma, um pool do Spark permite que você use o Apache Spark sem gerenciar clusters. Isso é semelhante ao funcionamento de um pool SQL sem servidor.

Analise os dados do NYC Taxi com um pool Spark

Nota

Certifique-se de ter colocado os dados de exemplo na conta de armazenamento principal.

No Synapse Studio, vá para o hub Develop .
Crie um novo bloco de notas.

Crie uma nova célula de código e cole o seguinte código nessa célula:

%%pyspark
df = spark.read.load('abfss://users@contosolake.dfs.core.windows.net/NYCTripSmall.parquet', format='parquet')
display(df.limit(10))

Modifique o URI de carga, para que ele faça referência ao arquivo de exemplo em sua conta de armazenamento de acordo com o esquema de URI abfss.
No bloco de anotações, no menu Anexar a , escolha o pool de faíscas sem servidor Spark1 que criamos anteriormente.
Selecione Executar na célula. Synapse iniciará uma nova sessão do Spark para executar esta célula, se necessário. Se uma nova sessão do Spark for necessária, inicialmente levará cerca de 2 a 5 minutos para ser criada. Uma vez que uma sessão é criada, a execução da célula levará cerca de 2 segundos.
Se você quiser apenas ver o esquema do dataframe, execute uma célula com o seguinte código:
```
%%pyspark
df.printSchema()
```

Carregue os dados do NYC Taxi no banco de dados nyctaxi do Spark

Os dados estão disponíveis através do dataframe denominado df. Carregue-o em um banco de dados do Spark chamado nyctaxi.

Adicione uma nova célula de código ao bloco de notas e, em seguida, introduza o seguinte código:

%%pyspark
spark.sql("CREATE DATABASE IF NOT EXISTS nyctaxi")
df.write.mode("overwrite").saveAsTable("nyctaxi.trip")

Analise os dados do NYC Taxi usando o Spark e notebooks

Crie uma nova célula de código e insira o código a seguir.

%%pyspark
df = spark.sql("SELECT * FROM nyctaxi.trip") 
display(df)

Execute a célula para mostrar os dados do NYC Taxi que carregamos no banco de dados nyctaxi Spark.

Crie uma nova célula de código e insira o código a seguir. Vamos analisar esses dados e salvar os resultados em uma tabela chamada nyctaxi.passengercountstats.

%%pyspark
df = spark.sql("""
   SELECT passenger_count,
       SUM(trip_distance) as SumTripDistance,
       AVG(trip_distance) as AvgTripDistance
   FROM nyctaxi.trip
   WHERE trip_distance > 0 AND passenger_count > 0
   GROUP BY passenger_count
   ORDER BY passenger_count
""") 
display(df)
df.write.saveAsTable("nyctaxi.passengercountstats")

Nos resultados da célula, selecione Gráfico para ver os dados visualizados.

Próximo passo

Analise dados com pool SQL dedicado

Partilhar via