PySpark-referencia

Ez az oldal áttekintést nyújt a PySparkhoz, a Sparkhoz készült Python API-hoz elérhető referenciaról. További információ a PySparkról: PySpark az Azure Databricksben.

Reference	Description
Alaposztályok	Fő osztályok a PySpark SQL használatához, beleértve a SparkSession és a DataFrame alapjait.
Spark-munkamenet	Az adatok olvasásának és AZ SQL-lekérdezések PySpark-alkalmazásokban való végrehajtásának belépési pontja.
Configuration	A Spark SQL futtatókörnyezeti konfigurációs beállításai, beleértve a végrehajtási és optimalizálási beállításokat. A csak a Databricksen elérhető konfigurációval kapcsolatos információkért lásd: Spark-konfigurációs tulajdonságok beállítása az Azure Databricksben.
DataFrame	Elosztott adatgyűjtemény nevesített oszlopokba rendezve, hasonlóan egy relációs adatbázis tábláihoz.
bemeneti/kimeneti	Az adatok különböző fájlformátumokba és adatforrásokba való beolvasásának és írásának módszerei.
oszlop	DataFrame-oszlopok, köztük átalakítások és kifejezések használatához szükséges műveletek.
adattípusok	A PySpark SQL-ben elérhető adattípusok, beleértve a primitív típusokat, az összetett típusokat és a felhasználó által definiált típusokat.
Sor	Adatkeret adatsorát jelöli, amely hozzáférést biztosít az egyes mezőértékekhez.
Funkciók	Beépített függvények az adatmanipulációs, átalakítási és összesítési műveletekhez.
Ablak	Ablakfüggvények az aktuális sorhoz kapcsolódó táblázatsorok közötti számítások végrehajtásához.
Csoportosítás	Az adatok csoportosításának és a csoportosított Adatkereteken végzett összesítési műveletek végrehajtásának módszerei.
Katalógus	Adatbázisokat, táblákat, függvényeket és egyéb katalógus-metaadatokat kezelő felület.
Avro	Az adatok Apache Avro formátumú olvasásának és írásának támogatása.
Megfigyelés	Metrikákat gyűjt, és figyeli a DataFrame-eket a lekérdezés végrehajtása során a figyeléshez és a hibakereséshez.
UDF	Felhasználó által definiált függvények egyéni Python-logika DataFrame-oszlopokra való alkalmazásához.
UDTF	Felhasználó által definiált táblafüggvények, amelyek minden bemeneti sorhoz több sort adnak vissza.
VariantVal	Rugalmas sémával kezeli a félig strukturált adatokat, amelyek dinamikus típusokat és beágyazott struktúrákat támogatnak.
ProtoBuf	Adatok szerializálásának és deszerializálásának támogatása Protokollpufferek formátummal.
Python DataSource	API-k egyéni adatforrások külső rendszerekből való olvasásához való implementálásához. Az egyéni adatforrásokról további információt a PySpark egyéni adatforrásai című témakörben talál.
Állapottartó processzor	A strukturált streamelés összetett állapotalapú műveleteihez kezeli az állapotot a streamelési kötegek között.

Visszacsatolás

Hasznos volt ez az oldal?

Last updated on 2026-01-16

Megosztás:

PySpark-referencia

Visszacsatolás

További források