Megosztás:


PySpark-referencia

Ez az oldal áttekintést nyújt a PySparkhoz, a Sparkhoz készült Python API-hoz elérhető referenciaról. További információ a PySparkról: PySpark az Azure Databricksben.

Reference Description
Alaposztályok Fő osztályok a PySpark SQL használatához, beleértve a SparkSession és a DataFrame alapjait.
Spark-munkamenet Az adatok olvasásának és AZ SQL-lekérdezések PySpark-alkalmazásokban való végrehajtásának belépési pontja.
Configuration A Spark SQL futtatókörnyezeti konfigurációs beállításai, beleértve a végrehajtási és optimalizálási beállításokat.
A csak a Databricksen elérhető konfigurációval kapcsolatos információkért lásd: Spark-konfigurációs tulajdonságok beállítása az Azure Databricksben.
DataFrame Elosztott adatgyűjtemény nevesített oszlopokba rendezve, hasonlóan egy relációs adatbázis tábláihoz.
bemeneti/kimeneti Az adatok különböző fájlformátumokba és adatforrásokba való beolvasásának és írásának módszerei.
oszlop DataFrame-oszlopok, köztük átalakítások és kifejezések használatához szükséges műveletek.
adattípusok A PySpark SQL-ben elérhető adattípusok, beleértve a primitív típusokat, az összetett típusokat és a felhasználó által definiált típusokat.
Sor Adatkeret adatsorát jelöli, amely hozzáférést biztosít az egyes mezőértékekhez.
Funkciók Beépített függvények az adatmanipulációs, átalakítási és összesítési műveletekhez.
Ablak Ablakfüggvények az aktuális sorhoz kapcsolódó táblázatsorok közötti számítások végrehajtásához.
Csoportosítás Az adatok csoportosításának és a csoportosított Adatkereteken végzett összesítési műveletek végrehajtásának módszerei.
Katalógus Adatbázisokat, táblákat, függvényeket és egyéb katalógus-metaadatokat kezelő felület.
Avro Az adatok Apache Avro formátumú olvasásának és írásának támogatása.
Megfigyelés Metrikákat gyűjt, és figyeli a DataFrame-eket a lekérdezés végrehajtása során a figyeléshez és a hibakereséshez.
UDF Felhasználó által definiált függvények egyéni Python-logika DataFrame-oszlopokra való alkalmazásához.
UDTF Felhasználó által definiált táblafüggvények, amelyek minden bemeneti sorhoz több sort adnak vissza.
VariantVal Rugalmas sémával kezeli a félig strukturált adatokat, amelyek dinamikus típusokat és beágyazott struktúrákat támogatnak.
ProtoBuf Adatok szerializálásának és deszerializálásának támogatása Protokollpufferek formátummal.
Python DataSource API-k egyéni adatforrások külső rendszerekből való olvasásához való implementálásához. Az egyéni adatforrásokról további információt a PySpark egyéni adatforrásai című témakörben talál.
Állapottartó processzor A strukturált streamelés összetett állapotalapú műveleteihez kezeli az állapotot a streamelési kötegek között.