Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
O Azure Databricks foi desenvolvido com base no Apache Spark, um mecanismo de análise unificado para big data e aprendizado de máquina. Para obter mais informações, consulte a visão geral do Apache Spark.
O Apache Spark tem APIs de DataFrame para operar em grandes conjuntos de dados, os quais incluem mais de 100 operadores em diversas linguagens de programação.
-
APIs do PySpark para desenvolvedores de Python. Veja Tutorial: Carregar e transformar dados usando Apache Spark DataFrames. As principais classes incluem:
- SparkSession – O ponto de entrada para a programação do Spark com o conjunto de dados e a API do DataFrame.
- DataFrame – Uma coleção distribuída de dados agrupados em colunas nomeadas. Confira DataFrames e MLlib baseado em DataFrame.
- (Descontinuado) APIs do SparkR para desenvolvedores de R. As principais classes incluem:
- SparkSession – O SparkSession é o ponto de entrada no SparkR. Veja Ponto de partida: SparkSession.
- SparkDataFrame – Uma coleção distribuída de dados agrupados em colunas nomeadas. Veja Conjuntos de dados e DataFrames, Criação de DataFrames e Criação de SparkDataFrames.
-
APIs do Scala para desenvolvedores do Scala. As principais classes incluem:
- SparkSession – O ponto de entrada para a programação do Spark com o conjunto de dados e a API do DataFrame. Veja Ponto de partida: SparkSession.
-
Conjunto de dados – Uma coleção fortemente tipada de objetos específicos de domínio que podem ser transformados em paralelo usando operações funcionais ou relacionais. Cada
Datasettambém tem uma exibição sem tipo chamada DataFrame, que é umDatasetde uma linha. Veja Conjuntos de dados e DataFrames, Criação de DataFrames, APIs do DataFrame e Funções do DataFrame.
-
APIs do Java para desenvolvedores de Java. As principais classes incluem:
- SparkSession – O ponto de entrada para a programação do Spark com o conjunto de dados e a API do DataFrame. Veja Ponto de partida: SparkSession.
-
Conjunto de dados – Uma coleção fortemente tipada de objetos específicos de domínio que podem ser transformados em paralelo usando operações funcionais ou relacionais. Cada
Datasettambém tem uma exibição sem tipo chamada DataFrame, que é umDatasetde uma linha. Veja Conjuntos de dados e DataFrames, Criação de DataFrames, APIs do DataFrame e Funções do DataFrame.
Para saber como usar as APIs do Apache Spark no Azure Databricks, confira o seguinte:
- PySpark no Azure Databricks
- Azure Databricks para desenvolvedores de R
- Azure Databricks para desenvolvedores do Scala
- Para Java, é possível executar o código Java como um trabalho JAR.