Verstehen von künstlicher Intelligenz und Custom Vision

Abgeschlossen

Nachdem Ihr Projekt fertig vorbereitet ist, sollen nun die weiteren Schritte überblicksartig erläutert werden. Künstliche Intelligenz (KI) ist genau das: künstlich. Bei KI handelt es sich um simulierte Intelligenz, die über eine äußerst große Menge von Daten als Basis verfügt.

Bei der Objekterkennung mit Custom Vision-KI kann der Vorgang in zwei Schritte unterteilt werden:

  1. Sie teilen der KI mit, wo auf einem Bild sich ein Objekt befindet.
  2. Sie geben der KI ein Bild mit dem Objekt darauf, und sie sagt Ihnen, wo sich das Objekt befindet.

Dies klingt ziemlich einfach, aber woher kann die KI das?

Bilderkennung: „Color“ (Farbe)

Im Detail darauf einzugehen, wie KI aufgebaut ist, sprengt zwar den Rahmen dieses Moduls, im Folgenden wird jedoch grob erläutert, wie sie funktioniert. Computer verwenden das als Basis, was in Daten, genauer gesagt in Zahlen, konvertiert werden kann. Stellen Sie sich einen Computer vor, der, wenn ihm ein Bild gezeigt wird, jeden Pixel durchlaufen und Ihnen mitteilen kann, welche Farbe sich jeweils wo befindet. Dieser Computer wäre nicht „intelligent“, aber er wäre in der Lage, Ihnen beim Durchlaufen der Pixel die Farbe eines jeden Pixels zu nennen.

Stellen Sie sich nun vor, dass der Computer ein wenig intelligenter ist und die auf einem Bild am meisten vorhandene Farbe ermitteln kann. Sie können nun bereits damit beginnen, dem Computer das Erkennen von Bildern beizubringen (in Bezug auf KI wird hier von Training gesprochen). Angenommen, Sie zeigen dem Computer das folgende Bild von Bungee:

Image that shows mostly Bungee.

Der Computer würde wahrscheinlich verstehen, dass Bilder, die größtenteils weiß und gelb sind, Bilder von Bungee sind. Doch was, wenn Sie dem Computer das folgende Bild von Chang’e zeigen?

Image that shows Chang'e playing ping pong.

Dieses Bild verfügt ebenfalls über viel Weiß und Gelb, sodass der Computer wahrscheinlich denken würde, dass es sich ebenfalls um ein Bild von Bungee handelt.

Und was passiert, wenn Sie dem Computer dieses Bild von Bungee vor dem Nachthimmel zeigen?

Image that shows Bungee looking at the Moon.

Es gibt zwar weiße Bildanteile, aber überhaupt keine gelben, sodass der Computer wahrscheinlich denken würde, dass dies kein Bild von Bungee ist.

Bilderkennung: Form

Wir haben KI-Algorithmen so weiterentwickelt, dass sie Linien und Formen erkennen können, um Bilder von verschiedenen Objekten mit ähnlichen Farben und Bilder desselben Objekts mit verschiedenen Farben zu berücksichtigen. Sie können beginnen, sich vorzustellen, wie dies in den Anfängen der KI-Entwicklung gemacht wurde. Linien oder Formen können als Farbänderungen beschrieben werden.

Statt nur die aggregierten Farben auf einem Bild zu berücksichtigen, würde der Computer nun damit beginnen, auch die Position dieser Farben miteinzubeziehen. Wenn sich dieselbe Farbe mehrfach nebeneinander befindet, bildet sie wahrscheinlich eine Linie oder Form.

Diese Art von Analyse kann z. B. nützlich sein, wenn Bilder vom Mond erkannt werden sollen. Nun können Sie sagen, dass der Mond auf einem Bild ist, wenn darauf ein weißer Kreis zu sehen ist, in der Regel mit einem blauen oder schwarzen Hintergrund, wie hier:

Image that shows the Moon against a night sky.

Nun wird dem Computer das folgende Bild gezeigt:

Image that shows the Moon behind Fei Fei.

Der Computer würde den Mond wahrscheinlich noch immer erkennen, da auf dem Bild ein deutlicher weißer Kreis mit einem blauen oder schwarzen Hintergrund zu sehen ist.

Das folgende Bild könnte er jedoch wahrscheinlich nicht als Bild des Monds erkennen:

Image that shows the Moon with a big dog taking a bite from it.

Denn es ist kein vollständiger weißer Kreis zu sehen.

Bilderkennung: erweiterte KI

Wie Sie sehen können, begann KI, insbesondere im Bereich der Bilderkennung, einfach und wurde zunehmend komplexer, als immer mehr Personen begannen, sich damit zu beschäftigen, wie sie Computern dabei helfen können, zu erkennen, was diese sehen. Heutzutage (und bei der KI, die die Basis für die Custom Vision-Ressource von Azure bildet) berücksichtigt die Bilderkennung viel mehr als nur Farbe oder Form. KI wurde mit Tausenden und Millionen von Bildern trainiert. Sie kann feine Unterschiede zwischen Katzen und Hunden erkennen, die für einen Menschen offensichtlich erscheinen mögen. Wenn ein Computer jedoch zwei gleich große braune Formen mit vier Beinen, einem Schwanz und Ohren betrachtet, beginnen Sie vielleicht zu verstehen, wie beeindruckend es ist, dass die Merkmale einer Katze von denen eines Hunds unterschieden werden können.

Training mit bestimmten Bildern

Erweiterte KI kann zwar zahlreiche gängige Objekte erkennen (Hunde im Vergleich zu Katzen, Autos im Vergleich zu Fahrrädern), wenn Sie KI jedoch so trainieren möchten, dass sie ein bestimmtes Objekt erkennt, z. B. eine bestimmte Figur aus einem bestimmten Film wie im Fall von Bungee, ist noch weitere Arbeit erforderlich.

An dieser Stelle kommt der Custom Vision-Dienst ins Spiel. Dieser Dienst verfügt über KI im Hintergrund, die bereits einiges über die Welt weiß, aber nichts über Bungee (oder Ihr Haustier). Sie stellen also viele Bilder von Bungee bereit und teilen der KI mit, dass es sich um Bilder von Bungee handelt. Mit jedem Bild von Bungee, das Sie bereitstellen, erhält die KI mehr Daten zu Merkmalen, die speziell für Bungee charakteristisch sind. Je mehr Bilder von Bungee die KI erhält, die sich in Bezug auf den Winkel, die Beleuchtung und die Größe voneinander unterscheiden, desto besser wird sie darin, Bungee auf einem größeren Bild zu erkennen.

Dies wird als Trainieren der KI bezeichnet.

Als Nächstes testen Sie die KI, um zu sehen, ob sie gut trainiert wurde. Hierzu zeigen Sie ihr Bilder von Bungee, die sie noch nie zuvor gesehen hat. Es ist äußerst wichtig, dass Sie zum Testen Bilder verwenden, die die KI beim Training nicht verwendet hat. Andernfalls testen Sie faktisch nicht die Fähigkeit der KI, Bungee zu erkennen, sondern stellen nur fest, dass die KI sich daran erinnern kann, genau dieses Bild bereits gesehen zu haben.

Dies ist der Vorhersageschritt des Projekts, der als Testen der KI bezeichnet wird.

Wenn Sie sichergestellt haben, dass die Vorhersage der KI richtig genug ist, können Sie Ihre KI bereitstellen, sodass andere sie verwenden können, um Objekte mithilfe ihres Handys oder Computers zu erkennen. Dies wird in diesem Modul nicht behandelt, Sie sollten es aber auf jeden Fall ausprobieren!

Hinweis

Erinnern Sie sich noch daran, dass Sie beim Erstellen des Custom Vision-Projekts im Custom Vision-Portal für das Training und die Vorhersage getrennt gefragt wurden, welche Region verwendet werden soll? Der Grund hierfür ist folgender: Angenommen, Sie trainieren Ihre KI in Ihrem Haus in Seattle, Washington. In diesem Fall sollten Sie Cloudressourcen verwenden, die sich in Ihrer Nähe befinden, damit der Vorgang schnell ist. Möglicherweise stellen Sie diese KI jedoch für Ihre in London lebende Mutter bereit und möchten, dass sie die Vorhersagen schnell erhält. In diesem Fall sollten Sie für Vorhersagen Cloudressourcen verwenden, die sich näher bei ihr befinden.