Referens för Apache Spark-API:er
Azure Databricks bygger på Apache Spark, en enhetlig analysmotor för stordata och maskininlärning. Mer information finns i Apache Spark på Azure Databricks.
Apache Spark har DataFrame-API:er för användning på stora datauppsättningar, som omfattar över 100 operatorer, på flera språk.
- PySpark-API:er för Python-utvecklare. Se Självstudie: Läsa in och transformera data med Apache Spark DataFrames. Viktiga klasser är:
- SparkSession – startpunkten för att programmera Spark med datauppsättningen och DataFrame-API:et.
- DataFrame – en distribuerad samling data grupperade i namngivna kolumner. Se DataFrames och DataFrame-baserad MLlib.
- SparkR-API:er för R-utvecklare. Viktiga klasser är:
- SparkSession – SparkSession är startpunkten i SparkR. Se Startpunkt: SparkSession.
- SparkDataFrame – en distribuerad samling data grupperade i namngivna kolumner. Se Datauppsättningar och DataFrames, Skapa dataramar och Skapa SparkDataFrames.
- Scala-API:er för Scala-utvecklare. Viktiga klasser är:
- SparkSession – startpunkten för att programmera Spark med datauppsättningen och DataFrame-API:et. Se Startpunkt: SparkSession.
- Datauppsättning – En starkt typbaserad samling domänspecifika objekt som kan transformeras parallellt med hjälp av funktionella åtgärder eller relationsåtgärder. Var och
Dataset
en har också en otypad vy som kallas dataram, som är enDataset
rad. Se Datauppsättningar och DataFrames, Skapa datauppsättningar, Skapa dataramar och DataFrame-funktioner.
- Java-API:er för Java-utvecklare. Viktiga klasser är:
- SparkSession – startpunkten för att programmera Spark med datauppsättningen och DataFrame-API:et. Se Startpunkt: SparkSession.
- Datauppsättning – En starkt typbaserad samling domänspecifika objekt som kan transformeras parallellt med hjälp av funktionella åtgärder eller relationsåtgärder. Var och
Dataset
en har också en otypad vy som kallas dataram, som är enDataset
rad. Se Datauppsättningar och DataFrames, Skapa datauppsättningar, Skapa dataramar och DataFrame-funktioner.
Information om hur du använder Apache Spark-API:er i Azure Databricks finns i:
- PySpark på Azure Databricks
- Azure Databricks för R-utvecklare
- Azure Databricks för Scala-utvecklare
- För Java kan du köra Java-kod som ett JAR-jobb.