Mély tanulás és gépi tanulás az Azure Machine Learningben
Ez a cikk a mély tanulást és a gépi tanulást ismerteti, és azt, hogyan illeszkednek a mesterséges intelligencia szélesebb kategóriájába. Megismerheti az Azure Machine Learningre épülő mélytanulási megoldásokat, például a csalások észlelését, a hang- és arcfelismerést, a hangulatelemzést és az idősor-előrejelzést.
A megoldásokhoz tartozó algoritmusok kiválasztásával kapcsolatos útmutatásért tekintse meg a Machine Learning Algorithm Cheat Sheet (Gépi tanulási algoritmusok cheat sheet) című témakört.
Mély tanulás, gépi tanulás és AI
A mély tanulás és a gépi tanulás és az AI megértéséhez vegye figyelembe az alábbi definíciókat:
A mély tanulás a gépi tanulás olyan részhalmaza, amely mesterséges neurális hálózatokon alapul. A tanulási folyamatazért mély , mert a mesterséges neurális hálózatok struktúrája több bemenetből, kimenetből és rejtett rétegekből áll. Mindegyik réteg egységekből épül fel, amelyek a bemenetet olyan információvá alakítják át, amelyet a következő réteg egy adott prediktív feladat elvégzéséhez fel tud használni. Ennek a struktúrának köszönhetően a gép saját adatfeldolgozással tanulhat.
A gépi tanulás a mesterséges intelligencia olyan részhalmaza, amely olyan technikákat (például mély tanulást) használ, amelyek lehetővé teszik, hogy a gépek tapasztalatot használjanak a feladatok javítására. A tanulási folyamat a következő lépéseken alapul:
- Adatok betáplálása algoritmusba. (Ebben a lépésben további információkat adhat meg a modellnek, például funkciókinyerés végrehajtásával.)
- Ezek az adatok modell betanítása.
- Tesztelje és telepítse a modellt.
- Használja az üzembe helyezett modellt egy automatizált prediktív feladat végrehajtásához. (Más szóval hívja meg és használja az üzembe helyezett modellt a modell által visszaadott előrejelzések fogadásához.)
A mesterséges intelligencia (AI) egy olyan technika, amely lehetővé teszi a számítógépek számára az emberi intelligencia utánzását. Ez magában foglalja a gépi tanulást is.
Gépi tanulási és mély tanulási technikák használatával olyan számítógépes rendszereket és alkalmazásokat hozhat létre, amelyek gyakran emberi intelligenciával kapcsolatos feladatokat végeznek. Ezek a feladatok közé tartozik a képfelismerés, a beszédfelismerés és a nyelvi fordítás.
A mély tanulás és a gépi tanulás technikái
Most, hogy megismerte a gépi tanulás és a mély tanulás áttekintését, hasonlítsuk össze a két technikát. A gépi tanulásban az algoritmusnak el kell mondania, hogyan készíthet pontos előrejelzést további információk felhasználásával (például funkciókinyerés végrehajtásával). A mély tanulás során az algoritmus megtanulhatja, hogyan készíthet pontos előrejelzést saját adatfeldolgozásával, a mesterséges neurális hálózati struktúrának köszönhetően.
Az alábbi táblázat részletesebben hasonlítja össze a két technikát:
Minden gépi tanulás | Csak mély tanulás | |
---|---|---|
Adatpontok száma | Kis mennyiségű adatot használhat előrejelzések készítéséhez. | Nagy mennyiségű betanítási adatot kell használnia az előrejelzések készítéséhez. |
Hardverfüggőségek | Alacsony szintű gépeken is dolgozhat. Nincs szüksége nagy számítási teljesítményre. | A csúcskategóriás gépektől függ. Eredendően nagy számú mátrix-szorzási műveletet hajt végre. A GPU hatékonyan optimalizálhatja ezeket a műveleteket. |
Featurizálási folyamat | A szolgáltatások pontos azonosítását és létrehozását igényli a felhasználók számára. | Megtanulja a magas szintű funkciókat az adatokból, és önmagában új funkciókat hoz létre. |
Tanulási megközelítés | A tanulási folyamatot kisebb lépésekre osztja. Ezután egyesíti az egyes lépések eredményeit egy kimenetben. | Végighalad a tanulási folyamaton a probléma végpontok közötti megoldásával. |
Végrehajtási idő | Viszonylag kevés időt vesz igénybe a betanítása, néhány másodperctől néhány óráig. | A betanulás általában hosszú időt vesz igénybe, mert egy mélytanulási algoritmus sok réteget foglal magában. |
Kimenet | A kimenet általában numerikus érték, például pontszám vagy besorolás. | A kimenet több formátumot is tartalmazhat, például szöveget, pontszámot vagy hangot. |
Mi az a tudásátadás?
A mélytanulási modellek betanításához gyakran nagy mennyiségű betanítási adatra, csúcskategóriás számítási erőforrásokra (GPU, TPU) és hosszabb betanítási időre van szükség. Olyan helyzetekben, amikor ezek közül egyik sem áll rendelkezésre, a betanítási folyamatot egy úgynevezett átadási tanulás nevű technikával lehet rövidíteni.
Az átadási tanulás egy olyan technika, amely az egyik probléma megoldásából szerzett tudást egy másik, de kapcsolódó problémára alkalmazza.
A neurális hálózatok szerkezete miatt az első réteg általában alacsonyabb szintű szolgáltatásokat tartalmaz, míg a végső rétegcsoport olyan magasabb szintű szolgáltatásokat tartalmaz, amelyek közelebb vannak a szóban forgó tartományhoz. A végső rétegek új tartományban vagy problémában való felhasználásával jelentősen csökkentheti az új modell betanításához szükséges időt, adatokat és számítási erőforrásokat. Ha például már rendelkezik olyan modellel, amely felismeri az autókat, ezt a modellt újra felhasználhatja a transzfertanulás használatával a teherautók, motorkerékpárok és más típusú járművek felismerésére is.
Megtudhatja, hogyan alkalmazhat átviteli tanulást képbesoroláshoz nyílt forráskódú keretrendszer használatával az Azure Machine Learningben: Mélytanulási PyTorch-modell betanítása átadási tanulással.
Mélytanulási használati esetek
A mesterséges neurális hálózati struktúra miatt a mély tanulás kiválóan alkalmas a strukturálatlan adatok, például képek, hang, videó és szöveg mintázatainak azonosítására. Emiatt a mély tanulás gyorsan átalakítja számos iparágat, köztük az egészségügyet, az energiát, a pénzügyet és a közlekedést. Ezek az iparágak most újragondolják a hagyományos üzleti folyamatokat.
A mély tanulás leggyakoribb alkalmazásait az alábbi bekezdések ismertetik. Az Azure Machine Learningben használhat egy nyílt forráskódú keretrendszerből létrehozott modellt, vagy létrehozhatja a modellt a megadott eszközökkel.
Elnevezett entitások felismerése
A nevesített entitásfelismerés egy mélytanulási módszer, amely bemenetként egy szövegrészt vesz fel, és előre megadott osztálysá alakítja. Ez az új információ lehet irányítószám, dátum, termékazonosító. Az információk ezután egy strukturált sémában tárolhatók a címek listájának létrehozásához, vagy egy identitás-érvényesítési motor viszonyítási pontjaként.
Objektumészlelés
A mély tanulást számos objektumészlelési használati esetben alkalmazták. Az objektumészlelés két részből áll: a képbesorolásból, majd a kép honosításból. A képbesorolás azonosítja a kép objektumait, például autókat vagy személyeket. A kép honosítása biztosítja ezeknek az objektumoknak a helyét.
Az objektumészlelést már használják olyan iparágakban, mint a játék, a kiskereskedelem, a turizmus és az önvezető autók.
Kép képaláírás generáció
A képfelismeréshez hasonlóan egy adott kép feliratozásához a rendszernek létre kell hoznia egy képaláírás, amely leírja a kép tartalmát. Ha észlelni és címkézni tudja az objektumokat a fényképeken, a következő lépés a címkék leíró mondattá alakítása.
A képfeliratozási alkalmazások általában konvolúciós neurális hálózatokat használnak a képek objektumainak azonosításához, majd egy ismétlődő neurális hálózat használatával konzisztens mondatokká alakítják a címkéket.
Gépi fordítás
A gépi fordítás szavakat vagy mondatokat vesz fel egy nyelvről, és automatikusan lefordítja őket egy másik nyelvre. A gépi fordítás már régóta elérhető, de a mély tanulás két konkrét területen is lenyűgöző eredményeket ér el: a szöveg automatikus fordítása (és a beszéd szöveggé alakítása) és a képek automatikus fordítása.
A megfelelő adatátalakítással a neurális hálózat képes megérteni a szöveg-, hang- és vizuális jeleket. A gépi fordítással azonosíthatók a hangrészletek nagyobb hangfájlokban, és szövegként átírhatók a kimondott szó vagy kép.
Szövegelemzés
A mélytanulási módszereken alapuló szövegelemzés magában foglalja nagy mennyiségű szöveges adat (például orvosi dokumentumok vagy költségek nyugtáinak) elemzését, a minták felismerését, valamint a rendszerezett és tömör információk létrehozását.
A vállalatok mély tanulással végeznek szövegelemzést a bennfentes kereskedelem és a kormányzati előírásoknak való megfelelés észleléséhez. Egy másik gyakori példa a biztosítási csalás: a szövegelemzést gyakran használták nagy mennyiségű dokumentum elemzésére, hogy felismerjék a biztosítási jogcímek csalásának esélyét.
Mesterséges neurális hálózatok
A mesterséges neurális hálózatokat a csatlakoztatott csomópontok rétegei alkotják. A mélytanulási modellek nagy számú réteget tartalmazó neurális hálózatokat használnak.
Az alábbi szakaszok a legnépszerűbb mesterséges neurális hálózati tipológiákat ismertetik.
Feedforward neurális hálózat
A feedforward neurális hálózat a mesterséges neurális hálózat legegyszerűbb típusa. A feedforward hálózaton az információk csak egy irányba mozognak a bemeneti rétegről a kimeneti rétegre. A feedforward neurális hálózatok úgy alakítják át a bemenetet, hogy rejtett rétegek sorozatán keresztül helyezik át. Minden réteg neuronokból áll, és minden réteg teljes mértékben kapcsolódik a rétegben lévő összes neuronhoz. Az utolsó teljesen csatlakoztatott réteg (a kimeneti réteg) a generált előrejelzéseket jelöli.
Ismétlődő neurális hálózat (RNN)
A rekurzív neurális hálózatok széles körben használt mesterséges neurális hálózatok. Ezek a hálózatok mentik egy réteg kimenetét, és visszatáplolják a bemeneti rétegbe a réteg eredményének előrejelzéséhez. A visszatérő neurális hálózatok kiváló tanulási képességekkel rendelkeznek. Ezeket széles körben használják olyan összetett feladatokhoz, mint az idősor-előrejelzés, a kézírás tanulása és a nyelv felismerése.
Konvolúciós neurális hálózat (CNN)
A konvolúciós neurális hálózat egy különösen hatékony mesterséges neurális hálózat, amely egyedi architektúrát mutat be. A rétegek három dimenzióba vannak rendezve: szélesség, magasság és mélység. Az egyik rétegben lévő neuronok nem a következő rétegben lévő összes neuronhoz kapcsolódnak, hanem csak a réteg neuronjainak egy kis régiójához. A végső kimenet a valószínűségi pontszámok egyetlen vektorára csökken, a mélységi dimenzió mentén rendezve.
A konvolúciós neurális hálózatokat olyan területeken használták, mint a videofelismerés, a képfelismerés és az ajánló rendszerek.
Generatív adversarial network (GAN)
A Generatív adversarial-hálózatok olyan generatív modellek, amelyek valósághű tartalmak, például képek létrehozására vannak betanítva. Két hálózatból áll, úgynevezett generátorból és diszkriminatívból. Mindkét hálózat egyidejű betanítása. A betanítás során a generátor véletlenszerű zajt használ a valós adatokhoz szorosan hasonlító új szintetikus adatok létrehozásához. A diszkriminatív bemenetként veszi a generátor kimenetét, és valós adatokat használ annak meghatározására, hogy a létrehozott tartalom valós vagy szintetikus-e. Minden hálózat verseng egymással. A generátor olyan szintetikus tartalmat próbál létrehozni, amely megkülönböztethetetlen a valós tartalomtól, és a diszkriminatív a bemeneteket valós vagy szintetikusként próbálja helyesen besorolni. A kimenet ezután mindkét hálózat súlyának frissítésére szolgál, hogy jobban elérhessék a céljukat.
A Generatív adversarial hálózatok olyan problémák megoldására szolgálnak, mint a kép-képfordítás és az életkor előrehaladása.
Transformers
A transzformátorok olyan modellarchitektúrák, amelyek olyan sorozatokat tartalmazó problémák megoldására szolgálnak, mint a szöveg- vagy idősoradatok. Kódoló és dekóder rétegekből állnak. A kódoló beolvas egy bemenetet, és megfelelteti azt egy olyan numerikus ábrázolásnak, amely információkat, például kontextust tartalmaz. A dekóder a kódoló információit használja egy kimenet, például a lefordított szöveg előállításához. A kódolókat és dekódereket tartalmazó más architektúráktól eltérő transzformátorok a figyelem alrétegei. A figyelem az a gondolat, hogy a bemenetek adott részeire összpontosítsunk a kontextusuknak a sorozat más bemeneteihez viszonyított fontosságán alapulva. Egy hírcikk összegzésekor például nem minden mondat releváns a fő gondolat leírásához. A cikk kulcsszavaira összpontosítva az összegzés egyetlen mondatban, a főcímben végezhető el.
A transzformátorok olyan természetes nyelvi feldolgozási problémák megoldására szolgálnak, mint a fordítás, a szöveggenerálás, a kérdések megválaszolása és a szövegösszesítés.
A transzformátorok néhány jól ismert implementációja a következő:
- Kétirányú kódoló reprezentációk transzformátorokból (BERT)
- Generatív előre betanított transzformátor 2 (GPT-2)
- Generatív előre betanított transzformátor 3 (GPT-3)
Következő lépések
Az alábbi cikkek további lehetőségeket mutatnak be a nyílt forráskódú mélytanulási modellek Azure Machine Learningben való használatára: