Freigeben über


Vergleich von Deep Learning und Machine Learning in Azure Machine Learning

Dieser Artikel vergleicht Deep Learning mit maschinellem Lernen und beschreibt, wie sie in die breitere Kategorie von KI passen. Informieren Sie sich über Deep Learning-Lösungen, die Sie unter Azure Machine Learning erstellen können, z. B. Betrugserkennung, Sprach- und Gesichtserkennung, Standpunktanalyse und Zeitreihenvorhersagen.

Eine Anleitung zur Auswahl von Algorithmen für Ihre Lösungen finden Sie unter Spickzettel für Machine Learning-Algorithmen.

Foundry Models in Azure Machine Learning sind vortrainierte Deep Learning-Modelle, die für bestimmte Anwendungsfälle optimiert werden können. Weitere Informationen finden Sie unter Microsoft Foundry-Modelle in Azure Machine Learning erkunden und wie Sie von Azure Machine Learning kuratierte Open-Source-Foundation-Modelle verwenden.

Deep Learning, maschinelles Lernen und KI

Diagramm, das die Beziehungen zwischen KI, maschinellem Lernen und Deep Learning beschreibt.

Die folgenden Definitionen beschreiben die Beziehungen zwischen Deep Learning, Machine Learning, KI:

  • Deep Learning ist ein Teilbereich des maschinellen Lernens und basiert auf künstlichen neuronalen Netzen. Der Lernprozess wird als Deep Learning bezeichnet, da die Struktur von künstlichen neuronalen Netzen aus mehreren Eingabe-, Ausgabe-und verborgenen Schichten besteht. Jede Schicht enthält Einheiten, die die Eingabedaten in Informationen transformieren, damit sie von der nächsten Schicht zum Ausführen einer bestimmten Vorhersageaufgabe verwenden können. Aufgrund dieser Struktur kann ein Computer durch seine eigene Datenverarbeitung lernen.

  • Maschinelles Lernen ist eine Teilmenge der künstlichen Intelligenz, die Techniken (z. B. Deep Learning) verwendet, mit denen Computer Erfahrungen verwenden können, um ihre Fähigkeit zum Ausführen von Aufgaben zu verbessern. Der Lernprozess besteht aus den folgenden Schritten:

    1. Einspeisen von Daten in einen Algorithmus. (In diesem Schritt können Sie dem Modell zusätzliche Informationen bereitstellen, z. B. durch Ausführen der Featureextraktion.)
    2. Verwenden dieser Daten zum Trainieren eines Modells
    3. Testen und Bereitstellen des Modells
    4. Nutzen des bereitgestellten Modells zum Ausführen einer automatisierten Vorhersageaufgabe. (Mit anderen Worten: Aufrufen und Verwenden des bereitgestellten Modells, um die vom Modell zurückgegebenen Vorhersagen zu empfangen.)
  • KI ist eine Technik, mit der Computer menschliche Intelligenz nachahmen können. Sie umfasst auch maschinelles Lernen.

  • Generative KI ist eine Teilmenge der KI, die Techniken (z. B. Deep Learning) verwendet, um neue Inhalte zu generieren. Sie können beispielsweise generative KI verwenden, um Bilder, Text- oder Audiodateien zu erstellen. Diese Modelle verwenden massive Mengen an vortrainiertem Wissen, um diese Inhalte zu generieren.

Mithilfe von Machine Learning- und Deep Learning-Techniken können Sie Computersysteme und Anwendungen erstellen, die Aufgaben erledigen, die in der Regel mit menschlicher Intelligenz verbunden werden. Zu diesen Aufgaben gehören Bilderkennung, Spracherkennung und Sprachübersetzung.

Techniken von Deep Learning und maschinellem Lernen

Nachdem Sie nun ein grundlegendes Verständnis dafür haben, wie sich maschinelles Lernen von Deep Learning unterscheidet, vergleichen wir die beiden Techniken. Im maschinellen Lernen muss der Algorithmus angewiesen werden, wie man eine genaue Vorhersage erstellen kann, indem weitere Informationen verwendet werden. (Beispielsweise durch Ausführen der Featureextraktion.) In Deep Learning kann der Algorithmus lernen, wie man eine genaue Vorhersage durch seine eigene Datenverarbeitung macht, da er die künstliche neurale Netzwerkstruktur verwendet.

In der folgenden Tabelle werden die beiden Verfahren ausführlicher verglichen:

Maschinelles Lernen das Deep Learning
Anzahl von Datenpunkten Kann mithilfe kleiner Datenmengen Vorhersagen treffen Benötigt große Mengen von Trainingsdaten, um Vorhersagen zu treffen
Hardwareabhängigkeiten Kann auf Low-End-Computern ausgeführt werden. Erfordert keine hohe Rechenleistung. Hängt von High-End-Computern ab. Grundsätzlich wird eine große Zahl von Matrixmultiplikationsvorgängen durchgeführt. Eine GPU kann diese Vorgänge effizient optimieren.
Featurebereitstellung Merkmale müssen von Benutzern genau identifiziert und erstellt werden. Lernt allgemeine Merkmale aus Daten und erstellt selbstständig neue Merkmale.
Lernansatz Unterteilt den Lernprozess in kleinere Schritte. Anschließend werden die Ergebnisse aus den einzelnen Schritten in einer Ausgabe zusammengefasst. Durchläuft den Lernprozess durch Lösen des Problems auf Gesamtbasis.
Schulungszeit Das Training nimmt im Vergleich weniger Zeit in Anspruch: von wenigen Sekunden bis hin zu einigen Stunden. Das Training dauert meist lange, da ein Deep Learning-Algorithmus viele Schichten aufweist.
Ausgabe Die Ausgabe ist normalerweise ein numerischer Wert, z.B. eine Bewertung oder Klassifizierung. Die Ausgabe kann mehrere Formate aufweisen, z. B. Text, Score oder Sound.

Was ist Übertragungslernen?

Das Training von Deep Learning-Modellen erfordert häufig große Mengen an Trainingsdaten, High-End-Computeressourcen (GPU, TPU) und eine längere Trainingszeit. Wenn Sie keine dieser Mittel zur Verfügung haben, können Sie den Schulungsprozess mithilfe einer Technik beschleunigen, die bekannt ist als Transferlernen.

Lerntransfer ist ein Verfahren, bei dem das bei der Lösung eines Problems gewonnene Wissen auf ein anderes, aber verwandtes Problem angewandt wird.

Aufgrund der Struktur neuronaler Netze enthalten die ersten Ebenen in der Regel Features der unteren Ebenen, während die letzten Ebenen Features der höheren Ebenen enthalten, die näher an der fraglichen Domäne sind. Wenn Sie die letzten Ebenen für die Verwendung in einer neuen Domäne oder einem neuen Problem umwidmen, können Sie die Zeit, die Daten und die Computeressourcen zum Trainieren des neuen Modells deutlich reduzieren. Wenn Sie zum Beispiel bereits über ein Modell verfügen, das Autos erkennt, können Sie dieses Modell mithilfe von Transferlernen auch für die Erkennung von Lkw, Motorrädern und anderen Arten von Fahrzeugen wiederverwenden.

Informationen zum Anwenden von Transferlernen für die Bildklassifizierung mithilfe eines Open-Source-Frameworks in Azure Machine Learning finden Sie unter Trainieren eines Deep Learning PyTorch-Modells mithilfe von Transfer Learning.

Anwendungsfälle für Deep Learning

Aufgrund der künstlichen neuralen Netzwerkstruktur zeichnet sich Deep Learning durch die Identifizierung von Mustern in unstrukturierten Daten wie Bildern, Sound, Video und Text aus. Aus diesem Grund verändert Deep Learning schnell viele Branchen, darunter Gesundheitswesen, Energie, Finanzwesen und Transportwesen. Diese Branchen überdenken jetzt traditionelle Geschäftsprozesse.

Einige der häufigsten Anwendungen für Deep Learning werden in den folgenden Abschnitten beschrieben. In Azure Machine Learning können Sie ein Modell verwenden, das Sie aus einem Open-Source-Framework erstellt haben, oder das Modell mithilfe der bereitgestellten Tools erstellen.

Named-entity recognition (NER)

Named-entity recognition (Erkennung benannter Entitäten) ist eine Deep Learning-Methode, die einen Text als Eingabe entgegennimmt und in eine vordefinierte Klasse umwandelt. Diese neuen Informationen können eine Postleitzahl, ein Datum oder eine Produkt-ID sein. Die Informationen können dann in einem strukturierten Schema gespeichert werden, um eine Liste von Adressen zu erstellen oder als Benchmark für eine Engine zur Identitätsüberprüfung verwendet zu werden.

Objekterkennung

Deep Learning wird in vielen Anwendungsfällen zur Objekterkennung angewandt. Die Objekterkennung wird verwendet, um Objekte in einem Bild (z. B. Autos oder Personen) zu identifizieren und mithilfe eines Begrenzungsrahmens eine bestimmte Position für jedes Objekt bereitzustellen.

Objekterkennung wird bereits in Branchen wie Gaming, Einzelhandel, Tourismus und selbstfahrenden Autos eingesetzt.

Generierung der Bildbeschriftung

Wie bei der Bilderkennung muss bei der Bildbeschriftung im System für ein bestimmtes Bild eine Beschriftung generiert werden, die den Inhalt des Bilds beschreibt. Wenn Sie Objekte in Fotos erkennen und bezeichnen können, besteht der nächste Schritt darin, diese Bezeichnungen in beschreibende Sätze umzuwandeln.

Im Allgemeinen verwenden Bildbeschriftungsanwendungen Convolutional Neural Networks, um Objekte auf den Fotos zu erkennen, und dann ein Recurrent Neural Network, um die Bezeichnungen in zusammenhängende Sätze umzuwandeln.

Maschinelle Übersetzung

Bei der maschinellen Übersetzung werden Wörter oder Sätze aus einer Sprache automatisch in eine andere Sprache übersetzt. Die maschinelle Übersetzung gibt es schon seit geraumer Zeit, mit Deep Learning werden jedoch beeindruckende Ergebnisse in zwei bestimmten Bereichen erzielt: bei der automatischen Übersetzung von Text (und Spracherkennung) sowie bei der automatischen Übersetzung von Bildern.

Mit der richtigen Datentransformation kann ein neuronales Netz Text-, Audio- und visuelle Signale verstehen. Die maschinelle Übersetzung kann verwendet werden, um Tonausschnitte in größeren Audiodateien zu identifizieren und gesprochenen Text oder Bilder in Text zu transkribieren.

Textanalyse

Bei der Textanalyse basierend auf Deep Learning-Methoden werden große Mengen von Textdaten analysiert (z. B. medizinische Dokumente oder Spesenbestätigungen), das Erkennen von Mustern und das Erstellen von organisierten und präzisen Informationen daraus.

Organisationen verwenden Deep Learning, um Textanalysen durchzuführen, um Insiderhandel und Compliance mit behördlichen Vorschriften zu erkennen. Ein weiteres gängiges Beispiel ist Versicherungsbetrug: Textanalysen werden häufig verwendet, um eine große Anzahl von Dokumenten zu analysieren, um die Wahrscheinlichkeit zu erkennen, dass ein Versicherungsanspruch betrügerisch ist.

Künstliche neuronale Netze

Künstliche neuronale Netze setzen sich aus Ebenen verbundener Knoten zusammen. Deep Learning-Modelle verwenden neuronale Netze mit einer sehr großen Anzahl von Schichten.

In den folgenden Abschnitten werden einige beliebte künstliche neurale Netzwerktopologien beschrieben.

Neuronales feedforward-Netz

Das neuronale Feedforward-Netz ist die einfachste Art von künstlichen neuronalen Netzen. In einem Feedforward-Netz werden Informationen nur in einer Richtung von der Eingabeschicht an die Ausgabeschicht übertragen. In neuronalen feedforward-Netzen werden Eingaben transformiert, indem sie eine Reihe von Zwischenschichten durchlaufen. Jede Schicht besteht aus einer Anzahl von Neuronen, und jede Schicht ist vollständig mit allen Neuronen in der vorherigen Schicht verbunden. Die letzte vollständig verbundene Schicht (die Ausgabeschicht) stellt die generierten Vorhersagen dar.

Recurrent Neural Network (RNN)

Recurrent Neural Networks sind häufig verwendete künstliche neuronale Netze. Diese Netze speichern die Ausgabe einer Schicht und geben Sie zurück in die Eingabeschicht, um das Ergebnis der Schicht vorherzusagen. Wiederkehrende neurale Netzwerke haben starke Lernfähigkeiten. Sie werden häufig für komplexe Aufgaben wie Zeitreihenvorhersagen, das Erlernen von Handschrift und die Spracherkennung verwendet.

Convolutional Neural Network (CNN)

Ein Convolutional Neural Network (faltendes neuronales Netz, CNN) ist ein besonders effektives künstliches neuronales Netz und stellt eine einzigartige Architektur dar. Die Schichten sind in drei Dimensionen organisiert: Breite, Höhe und Tiefe. Die Neuronen in einer Schicht sind nicht mit allen Neuronen in der nächsten Schicht, sondern nur mit einem kleinen Bereich der Neuronen der Schicht verbunden. Die endgültige Ausgabe wird auf einen einzelnen Vektor mit Wahrscheinlichkeitsbewertungen reduziert, der entlang der Tiefendimension organisiert ist.

Konvolutionale neurale Netzwerke werden in Bereichen wie Videoerkennung, Bilderkennung und Empfehlungssysteme verwendet.

Generative Adversarial Network (GAN)

Generative Adversarial Networks (generierende gegnerische Netzwerke) sind generative Modelle, die darauf trainiert sind, realistische Inhalte wie z. B. Bilder zu erstellen. Sie bestehen aus zwei Netzwerken, die als Generator und Diskriminator bezeichnet werden. Beide Netzwerke werden gleichzeitig trainiert. Während des Trainings verwendet der Generator Zufallsrauschen, um neue synthetische Daten zu erstellen, die echten Daten sehr ähnlich sind. Der Diskriminator nimmt die Ausgabe des Generators als Eingabe und verwendet echte Daten, um zu bestimmen, ob der generierte Inhalt real oder synthetisch ist. Jedes Netzwerk steht im Wettbewerb mit dem anderen. Der Generator versucht, synthetische Inhalte zu generieren, die von realen Inhalten nicht unterschieden werden können, und der Diskriminator versucht, Eingaben korrekt als real oder synthetisch zu klassifizieren. Die Ausgabe wird dann verwendet, um die Gewichtungen beider Netzwerke zu aktualisieren, damit sie ihre jeweiligen Ziele besser erreichen können.

Generative adversariale Netzwerke werden verwendet, um Probleme wie Bild-zu-Bild-Übersetzung und Altersentwicklung zu lösen.

Transformatoren

Transformatoren sind Modellarchitekturen, die zum Lösen von Problemen mit Sequenzen wie Text- oder Zeitreihendaten geeignet sind. Sie bestehen aus Encoder- und Decoderebenen. Der Encoder nimmt eine Eingabe und ordnet sie einer numerischen Darstellung zu, die Informationen wie den Kontext enthält. Der Decoder verwendet Informationen vom Encoder, um eine Ausgabe zu erzeugen, z. B. übersetzten Text. Was Transformatoren von anderen Architekturen unterscheidet, die Encoder und Decoder enthalten, sind die untergeordneten Ebenen der Aufmerksamkeit. Die Aufmerksamkeit bezieht sich auf bestimmte Teile einer Eingabe, die auf der Bedeutung ihres Kontexts in Bezug auf andere Eingaben in einer Sequenz basieren. Wenn z. B. ein Modell einen Newsartikel zusammenfasst, sind nicht alle Sätze relevant, um die Hauptidee zu beschreiben. Durch die Konzentration auf Schlüsselwörter im gesamten Artikel kann die Zusammenfassung in einem einzigen Satz erfolgen, der Überschrift.

Transformatoren werden verwendet, um Probleme bei der Verarbeitung natürlicher Sprachen wie Übersetzung, Textgenerierung, Fragebeantwortung und Textzusammenfassung zu lösen.

Einige bekannte Implementierungen von Transformatoren sind:

  • Bidirektionale Encoderdarstellungen von Transformatoren (Bidirectional Encoder Representations from Transformers, BERT)
  • Generativer vortrainierter Transformator 2 (Generative Pre-trained Transformer 2, GPT-2)
  • Generativer vortrainierter Transformator 3 (Generative Pre-trained Transformer 3, GPT-3)

Nächste Schritte

In den folgenden Artikeln werden weitere Optionen für die Verwendung von Open-Source-Deep Learning-Modellen in Azure Machine Learning beschrieben: