Megosztás:


Besorolási mátrix (Analysis Services – Adatbányászat)

A következőkre vonatkozik: SQL Server 2019 és korábbi Analysis Services Azure Analysis Services Fabric/Power BI Premium

Fontos

Az adatbányászat elavult az SQL Server 2017 Analysis Servicesben, és megszűnt az SQL Server 2022 Analysis Servicesben. Az elavult és megszűnt funkciók dokumentációja nem frissül. További információkért tekintse meg az Analysis Services visszamenőleges kompatibilitását.

A besorolási mátrix a modell összes esetét kategóriákba rendezi annak meghatározásával, hogy az előrejelzett érték megfelel-e a tényleges értéknek. Ezután az egyes kategóriák összes esete meg lesz számlálva, és az összegek megjelennek a mátrixban. A besorolási mátrix a statisztikai modellek kiértékelésének szabványos eszköze, és néha keveredési mátrixnak is nevezik.

A Besorolási mátrix beállítás kiválasztásakor létrehozott diagram összehasonlítja a tényleges és az előrejelzett értékeket az egyes előrejelzett állapotokhoz. A mátrix sorai a modell előrejelzett értékeit, míg az oszlopok a tényleges értékeket jelölik. Az elemzésben használt kategóriák hamis pozitívak, valódi pozitívak, hamis negatívak és valódi negatívak

A besorolási mátrix fontos eszköz az előrejelzés eredményeinek értékeléséhez, mivel megkönnyíti a helytelen előrejelzések következményeinek megértését és figyelembe vételét. A mátrix egyes celláiban található mennyiség és százalékok megtekintésével gyorsan láthatja, hogy a modell milyen gyakran volt pontosan előrejelezve.

Ez a szakasz bemutatja, hogyan hozhat létre besorolási mátrixot, és hogyan értelmezi az eredményeket.

A besorolási mátrix ismertetése

Fontolja meg az alapszintű adatbányászati oktatóanyag részeként létrehozott modellt. A [TM_DecisionTree] modell segítségével célzott levelezési kampányt hozhat létre, és annak előrejelzésére használható, hogy mely ügyfelek fognak a legnagyobb valószínűséggel kerékpárt vásárolni. A modell várható hasznosságának teszteléséhez olyan adatkészletet használ, amelynél a [Bike Buyer] eredményattribútum értékei már ismertek. Általában a modell betanításához használt bányászati struktúra létrehozásakor félretett tesztelési adatkészletet használná.

Csak két lehetséges eredmény érhető el: igen (az ügyfél valószínűleg kerékpárt vásárol), és nem (az ügyfél valószínűleg nem vásárol kerékpárt). Ezért az eredményként kapott besorolási mátrix viszonylag egyszerű.

Az eredmények értelmezése

Az alábbi táblázat a TM_DecisionTree modell besorolási mátrixát mutatja be. Ne feledje, hogy ehhez a kiszámítható attribútumhoz a 0 nemet, az 1 pedig Igent jelent.

Jósolta 0 (Tényleges) 1 (Tényleges)
0 362 144
1 121 373

Az első eredménycella, amely a 362 értéket tartalmazza, a 0 érték valódi pozitív értékeinek számát jelzi. Mivel a 0 azt jelzi, hogy az ügyfél nem vásárolt kerékpárt, ez a statisztika azt jelzi, hogy a modell 362 esetben előrejelezte a nem kerékpárvásárlók helyes értékét.

A közvetlenül alatta lévő cella, amely a 121-es értéket tartalmazza, megmutatja a hamis pozitív értékek számát, vagy azt, hogy a modell hányszor jelezte előre, hogy valaki kerékpárt vásárol, amikor valójában nem.

A 144 értéket tartalmazó cella az 1 érték hamis pozitív értékeinek számát jelzi. Mivel az 1 azt jelenti, hogy az ügyfél vásárolt egy kerékpárt, ez a statisztika azt jelzi, hogy 144 esetben a modell előrejelezte, hogy valaki nem vásárol kerékpárt, amikor valójában igen.

Végül a 373 értéket tartalmazó cella az 1-es célérték valódi pozitív értékeinek számát jelzi. Más szóval, 373 esetben a modell helyesen megjósolta, hogy valaki vesz egy kerékpárt.

Az átlósan szomszédos cellák értékeinek összegzésével meghatározhatja a modell általános pontosságát. Az egyik átló a pontos előrejelzések teljes számát, a másik átlós pedig a hibás előrejelzések teljes számát jelzi.

Több kiszámítható érték használata

A [Bike Buyer] eset különösen könnyen értelmezhető, mert csak két lehetséges érték van. Ha a kiszámítható attribútum több lehetséges értékkel rendelkezik, a besorolási mátrix minden lehetséges tényleges értékhez hozzáad egy új oszlopot, majd megszámolja az egyes előrejelzett értékek egyezéseinek számát. Az alábbi táblázat egy másik modell eredményeit mutatja be, ahol három érték (0, 1, 2) lehetséges.

Jósolta 0 (Tényleges) 1 (Tényleges) 2 (Tényleges)
0 111 3 5
1 2 123 17
2 19 0 20

Bár a további oszlopok hozzáadása összetettebbé teszi a jelentést, a további részletek nagyon hasznosak lehetnek, ha a helytelen előrejelzés összegző költségét szeretné felmérni. Ha összegeket szeretne létrehozni az átlókon, vagy össze szeretné hasonlítani a sorok különböző kombinációinak eredményeit, kattintson a Besorolási mátrix lapon található Másolás gombra, és illessze be a jelentést az Excelbe. Másik lehetőségként használhat olyan ügyfelet, mint az Excel adatbányászati ügyfele, amely támogatja az SQL Server 2005 (9.x) és újabb verzióit, és közvetlenül az Excelben hozhat létre besorolási jelentést, amely számokat és százalékos értékeket is tartalmaz. További információ: SQL Server Data Mining.

A besorolási mátrix korlátozásai

A besorolási mátrixok csak különálló kiszámítható attribútumokkal használhatók.

Bár a Bányászat pontossági diagram tervezőjének Beviteli kijelölés lapján több modellt is hozzáadhat, a Besorolási mátrix lap minden modellhez külön mátrixot jelenít meg.

Az alábbi témakörök további információkat tartalmaznak arról, hogyan hozhat létre és használhat besorolási mátrixokat és más diagramokat.

Témakörök Links
A kapcsolódó diagramtípusok magyarázata. Emelési ábra (Analysis Services – Adatbányászat)

Profit Chart (Analysis Services – Adatbányászat)

Pontszerű ábra (Analysis Services – Adatbányászat)
A bányászati modellek és a bányászati struktúrák keresztérvényesítésének használatát ismerteti. Keresztellenőrzés (Analysis Services – Adatbányászat)
A felvonódiagramok és más pontossági diagramok létrehozásának lépéseit ismerteti. Tesztelési és érvényesítési feladatok és útmutatók (adatbányászat)

Lásd még:

Tesztelés és érvényesítés (adatbányászat)