Mi az Autotune az Apache Spark-konfigurációkhoz a Fabricben?

Az Autotune automatikusan módosítja az Apache Spark-konfigurációkat a számítási feladatok végrehajtási idejének csökkentése és a teljesítmény javítása érdekében. Segít elkerülni a manuális hangolást, amely általában ismétlődő próbaverziót és hibát igényel. Az Autotune a számítási feladatok előzmény végrehajtási adatait használja az egyes számítási feladatok hatékony beállításainak iteratív felderítéséhez és alkalmazásához.

Feljegyzés

A Microsoft Fabric Autotune lekérdezéshangolása jelenleg megtekintési állapotban érhető el. Minden éles régióban elérhető, de alapértelmezés szerint le van tiltva. Engedélyezze azt a környezet Spark-konfigurációjában, vagy egy egyetlen munkamenethez a notebookban vagy a Spark feladatdefiníciós kódban.

A konfiguráció alapértelmezett beállításai és követelményei

Alapértelmezett viselkedés: Az Autotune alapértelmezés szerint ki van kapcsolva .
Nincs szükség beállításra, ha ki van kapcsolva: Ha nem engedélyezi az autotune-t, a Spark a szokásos konfigurációs viselkedését használja.
Az autotune használatához szükséges beállítás: Állítsa be a következőt spark.ms.autotune.enabled=true :
- A környezeti szinten így az adott környezetet használó összes jegyzetfüzet és feladat örökli a beállítást. Lásd: Autotune engedélyezése.
- Csak egy jegyzetfüzetben vagy Spark-feladatdefiníciós munkamenetben. Lásd: Autotune engedélyezése egyetlen munkamenethez.

Lekérdezés finomhangolása

Az Autotune minden lekérdezéshez a következő három Apache Spark-beállítást hangolja:

spark.sql.shuffle.partitions: Az illesztések vagy összesítések során az adatkeverés partíciószámát állítja be. Az alapértelmezett érték 200.
spark.sql.autoBroadcastJoinThreshold: Meghatározza a maximális táblaméretet bájtban, amit az illesztés során a munkavégző csomópontokhoz kell közvetíteni. Az alapértelmezett érték 10 MB.
spark.sql.files.maxPartitionBytes: Beállítja, hogy a fájlok olvasása során a bájtok maximális mérete egyetlen partícióba legyen csomagolva. Parquet-, JSON- és ORC-fájlforrásokra vonatkozik. Az alapértelmezett érték 128 MB.

Az Autotune a lekérdezések hangolását úgy végzi, hogy megvizsgálja az egyes lekérdezéseket, és külön gépi tanulási modellt épít azokhoz. A legjobban a következő célokra használható:

Ismétlődő lekérdezések
Hosszú ideig futó lekérdezések (több mint 15 másodperc)
Apache Spark SQL API-lekérdezések (nem RDD API)

Az Autotune-t jegyzetfüzetekkel, Spark-feladatdefiníciókkal és folyamatokkal is használhatja. Az előny a lekérdezések összetettsége és az adatalakzat alapján változik. A tesztelés során a legnagyobb nyereség az olyan feltáró adatelemzési mintákban jelenik meg, mint az olvasások, illesztések, összesítések és rendezések.

Az Autotune működése

Az Autotune iteratív optimalizálási ciklust használ:

Kezdje az alapértelmezett Spark-konfigurációs értékekkel.
Jelölt konfigurációk létrehozása az alapszintű konfiguráció (centroid) körül.
A legjobb jelölt előrejelzése az előző futtatásokon betanított modell használatával.
Alkalmazza a jelöltet, és hajtsa végre a lekérdezést.
A végrehajtás eredményeinek betáplálása vissza a modellbe.

Az alapkonfiguráció idővel a jobb beállítások felé tolódik, miközben csökkenti a regressziós kockázatot. Az összes összegyűjtött adatpont használata szintén segít csökkenteni az anomáliák hatását.

Autotune engedélyezése

Az Autotune minden gyártási régióban elérhető, de alapértelmezés szerint le van tiltva. Ha környezeti szinten szeretné engedélyezni, állítsa be a Spark tulajdonságot spark.ms.autotune.enabled=true egy új vagy meglévő környezetben. A környezetet használó összes jegyzetfüzet és feladat örökli a beállítást.

Az Autotune beépített regresszióészlelést is tartalmaz. Ha például egy lekérdezés szokatlanul nagy mennyiségű adatot dolgoz fel, az Autotune automatikusan kihagyhatja a futtatás hangolását. Sok esetben az Autotune-nak körülbelül 20–25 iterációra van szüksége az erős beállítások konvergens létrehozásához.

Feljegyzés

Az Autotune kompatibilis a Runtime 1.2-vel. Az 1.2-nél későbbi futtatókörnyezeti verziókban nem engedélyezheti. Nem fut, ha engedélyezve van a magas egyidejűségi mód vagy a privát végpont . Az Autotune együttműködik bármilyen automatikus skálázási konfigurációval.

Az autotune-t egyetlen munkamenethez is engedélyezheti a Jegyzetfüzet Spark-tulajdonságának vagy a Spark-feladatdefiníciónak a beállításával.

Autotune engedélyezése egyetlen munkamenethez

%%sql
SET spark.ms.autotune.enabled=TRUE

%%pyspark
spark.conf.set('spark.ms.autotune.enabled', 'true')

%%spark
spark.conf.set("spark.ms.autotune.enabled", "true")

%%sparkr
library(SparkR)
sparkR.conf("spark.ms.autotune.enabled", "true")

Autotune letiltása egyetlen munkamenethez

Ha le szeretné tiltani az autotune-t egy jegyzetfüzetben vagy a Spark-feladatdefinícióban, futtassa az alábbi parancsok egyikét első cellaként vagy kódsorként.

%%sql 
SET spark.ms.autotune.enabled=FALSE

%%pyspark
spark.conf.set('spark.ms.autotune.enabled', 'false')

%%spark  
spark.conf.set("spark.ms.autotune.enabled", "false")

%%sparkr
library(SparkR)
sparkR.conf("spark.ms.autotune.enabled", "false")

Esettanulmány

Apache Spark-lekérdezés futtatásakor az Autotune létrehoz egy modellt a lekérdezési alakzathoz, és megismeri az idő során legjobb beállításokat. Kezdje például ezzel a szűrő lekérdezéssel:

%%pyspark
df.filter(df.country == "country-A")

Az Autotune ebből a futtatásból tanul. Ha később csak a szűrőértéket módosítja, a lekérdezés alakzata hasonló marad:

%%pyspark
df.filter(df.country == "country-B")

Az Autotune újra felhasználhatja a korábbi tanulásokat ehhez a hasonló lekérdezési mintához, ami segít a teljesítmény manuális újrahangolás nélküli fenntartásában.

Naplók

Az Autotune minden lekérdezéshez kiszámítja a három támogatott Spark-konfiguráció ajánlott értékeit. A javaslatok vizsgálatához ellenőrizze az [Autotune] kezdetű bejegyzések illesztőprogram-naplóit.

Gyakori naplóállapotok a következők:

Állapot	Leírás
`AUTOTUNE_DISABLED`	Kimarad. Az Autotune le van tiltva, így a rendszer nem alkalmazza a telemetriai gyűjteményt és az optimalizálást.
`QUERY_TUNING_DISABLED`	Kimarad. A lekérdezés finomhangolása le van tiltva.
`QUERY_PATTERN_NOT_MATCH`	Kimarad. A lekérdezés mintája nem egyezik a támogatott írásvédett lekérdezéstípusokkal.
`QUERY_DURATION_TOO_SHORT`	Kimarad. A lekérdezés 15 másodpercnél rövidebb ideig futott, ami túl rövid a hatékony hangoláshoz.
`QUERY_TUNING_SUCCEED`	Sikeres. A lekérdezés finomhangolása befejeződött, és az optimalizált Spark-beállítások lettek alkalmazva.

Áttetszőségi megjegyzés

A Felelős AI Standarddal összhangban ez a szakasz az Autotune használatát és érvényesítését ismerteti.

Az autotune célja

Az Autotune úgy lett kialakítva, hogy javítsa az Apache Spark számítási feladatainak hatékonyságát az adatszakértők számára. Ez:

Automatikusan hangolja az Apache Spark-konfigurációkat a végrehajtási idő csökkentése érdekében.
Csökkenti a manuális finomhangolási munkát.
A korábbi számítási feladatok adataival iteratív módon pontosítja a konfigurációs lehetőségeket.

Az autotune érvényesítése

Az Autotune átfogó ellenőrzésen megy keresztül a hatékonyság és a biztonság biztosítása érdekében:

Szigorú teszteket használ különböző Spark-számítási feladatokban az algoritmus hatékonyságának ellenőrzéséhez.
Teljesítménytesztek a standard Spark-optimalizálási módszerekhez a teljesítmény előnyeinek szemléltetéséhez.
Valós esettanulmányokat tartalmaz a gyakorlati érték bemutatásához.
Szigorú biztonsági és adatvédelmi előírásokat követ a felhasználói adatok védelme érdekében.

A felhasználói adatok kizárólag a számítási feladatok teljesítményének javítására szolgálnak, és robusztus védelemmel védik a bizalmas adatokkal való visszaélést vagy expozíciót.

Visszajelzés

Hasznosnak találta ezt az oldalt?

Last updated on 2026-03-11