Jegyzet
Az oldalhoz való hozzáférés engedélyezést igényel. Próbálhatod be jelentkezni vagy könyvtárat váltani.
Az oldalhoz való hozzáférés engedélyezést igényel. Megpróbálhatod a könyvtár váltását.
Ez az oldal áttekintést nyújt a PySparkhoz, a Sparkhoz készült Python API-hoz elérhető referenciaról. További információ a PySparkról: PySpark az Azure Databricksben.
| Reference | Description |
|---|---|
| Alaposztályok | Fő osztályok a PySpark SQL használatához, beleértve a SparkSession és a DataFrame alapjait. |
| Spark-munkamenet | Az adatok olvasásának és AZ SQL-lekérdezések PySpark-alkalmazásokban való végrehajtásának belépési pontja. |
| Configuration | A Spark SQL futtatókörnyezeti konfigurációs beállításai, beleértve a végrehajtási és optimalizálási beállításokat. A csak a Databricksen elérhető konfigurációval kapcsolatos információkért lásd: Spark-konfigurációs tulajdonságok beállítása az Azure Databricksben. |
| DataFrame | Elosztott adatgyűjtemény nevesített oszlopokba rendezve, hasonlóan egy relációs adatbázis tábláihoz. |
| bemeneti/kimeneti | Az adatok különböző fájlformátumokba és adatforrásokba való beolvasásának és írásának módszerei. |
| oszlop | DataFrame-oszlopok, köztük átalakítások és kifejezések használatához szükséges műveletek. |
| adattípusok | A PySpark SQL-ben elérhető adattípusok, beleértve a primitív típusokat, az összetett típusokat és a felhasználó által definiált típusokat. |
| Sor | Adatkeret adatsorát jelöli, amely hozzáférést biztosít az egyes mezőértékekhez. |
| Funkciók | Beépített függvények az adatmanipulációs, átalakítási és összesítési műveletekhez. |
| Ablak | Ablakfüggvények az aktuális sorhoz kapcsolódó táblázatsorok közötti számítások végrehajtásához. |
| Csoportosítás | Az adatok csoportosításának és a csoportosított Adatkereteken végzett összesítési műveletek végrehajtásának módszerei. |
| Katalógus | Adatbázisokat, táblákat, függvényeket és egyéb katalógus-metaadatokat kezelő felület. |
| Avro | Az adatok Apache Avro formátumú olvasásának és írásának támogatása. |
| Megfigyelés | Metrikákat gyűjt, és figyeli a DataFrame-eket a lekérdezés végrehajtása során a figyeléshez és a hibakereséshez. |
| UDF | Felhasználó által definiált függvények egyéni Python-logika DataFrame-oszlopokra való alkalmazásához. |
| UDTF | Felhasználó által definiált táblafüggvények, amelyek minden bemeneti sorhoz több sort adnak vissza. |
| VariantVal | Rugalmas sémával kezeli a félig strukturált adatokat, amelyek dinamikus típusokat és beágyazott struktúrákat támogatnak. |
| ProtoBuf | Adatok szerializálásának és deszerializálásának támogatása Protokollpufferek formátummal. |
| Python DataSource | API-k egyéni adatforrások külső rendszerekből való olvasásához való implementálásához. Az egyéni adatforrásokról további információt a PySpark egyéni adatforrásai című témakörben talál. |
| Állapottartó processzor | A strukturált streamelés összetett állapotalapú műveleteihez kezeli az állapotot a streamelési kötegek között. |