Deep Learning illustriert. Jon Krohn. Читать онлайн. Newlib. NEWLIB.NET

Автор: Jon Krohn
Издательство: Bookwire
Серия:
Жанр произведения: Математика
Год издания: 0
isbn: 9783960887522
Скачать книгу
der Agent dagegen eine Aktion, durch die Pac-Man einem gruseligen Geist in die Quere kommt, liefert die Umgebung eine negative Belohnung zurück: Die Punktezahl wird verringert.

      In einem zweiten Beispiel fährt der Agent ein Auto:

       Die verfügbaren Aktionen sind viel umfassender und vielfältiger als bei Pac-Man. Der Agent kann die Lenksäule, das Gaspedal und die Bremsen in unterschiedlichem Maße betätigen: ganz subtil, besonders heftig oder irgendetwas dazwischen.

       Die Umgebung ist in diesem Fall die wirkliche Welt, die aus Straßen, Verkehr, Fußgängern, Bäumen, Himmel und so weiter besteht. Der Zustand entspricht hier dem Zustand der Umgebung des Fahrzeugs, wie sie die Augen und Ohren eines menschlichen Agenten bzw. die Kamera und der Lidar5 (auch: Ladar) eines autonomen Fahrzeugs wahrnehmen.

       Die Belohnung könnte im Falle eines Algorithmus positiv programmiert sein für jeden Meter, der in Richtung auf ein Ziel zurückgelegt wird. Ein bisschen negativ wäre sie bei kleineren Verkehrsverstößen und ganz besonders negativ, falls es zu einem Zusammenstoß kommt.

       4.3Deep Reinforcement Learning

      Endlich sind wir beim Abschnitt Deep Reinforcement Learning (Deep RL) in der Mitte des Venn-Diagramms aus Abbildung 4–1 angekommen. Ein Reinforcement-Learning-Algorithmus verdient das Präfix »deep« (tief), wenn ein künstliches neuronales Netzwerk daran beteiligt ist, um zu lernen, welche Aktionen bei einem bestimmten Zustand der Umgebung nötig sind, um mit hoher Wahrscheinlichkeit eine positive Belohnung6 zu erhalten. Wie Sie in den Beispielen des nächsten Abschnitts sehen werden, hat sich die Verbrüderung von Deep Learning und Reinforcement Learning als fruchtbar erwiesen. Dies hat folgende Gründe:

       Tiefe neuronale Netze sind besonders gut beim Verarbeiten der komplexen sensorischen Eingaben, die von echten Umgebungen oder fortgeschrittenen simulierten Umgebungen bereitgestellt werden, um relevante Signale aus einer Kakophonie hereinströmender Daten zu extrahieren. Dies entspricht der Funktionalität der biologischen Neuronen des visuellen und auditorischen Kortex Ihres Gehirns, die ihren Input von den Augen bzw. Ohren erhalten.

       Reinforcement-Learning-Algorithmen wiederum eignen sich besonders gut für das Auswählen einer passenden Aktion aus einem breiten Angebot an Möglichkeiten.

      Zusammen bilden Deep Learning und Reinforcement Learning eine machtvolle Kombination zum Lösen von Problemen. Zunehmend komplexer werdende Probleme erfordern meist zunehmend größere Datensätze, damit die Agenten für das Deep Reinforcement Learning sowohl große Mengen an Rauschen als auch große Mengen an Zufälligkeiten durchlaufen und damit ein effektives Regelwerk entdecken können, das ihnen verrät, welche Aktionen sie unter bestimmten Umständen unternehmen sollten. Da viele Reinforcement-Learning-Probleme in einer simulierten Umgebung stattfinden, ist es oft kein Problem, eine ausreichende Menge an Daten zu erwerben: Der Agent kann einfach mit weiteren Simulationsrunden trainiert werden.

      Obwohl die theoretischen Grundlagen für das Deep Reinforcement Learning schon einige Jahrzehnte lang existieren,7 hat es in den letzten Jahren durch drei Faktoren deutlichen Aufwind erhalten – wie das normale Deep Learning durch AlexNet (Abbildung 1–17):

      1 exponentiell größere Datensätze und viel reichere simulierte Umgebungen

      2 paralleles Computing bei vielen GPUs (Graphics Processing Units; Grafikprozessoren) zur effizienten Modellierung mit größeren Datensätzen sowie ein erhöhter Umfang der möglichen Zustände und Aktionen

      3 ein Forschungsklima, das die Brücke zwischen dem akademischen und dem industriellen Bereich schlägt und einen sich schnell entwickelnden Korpus an neuen Ideen zu tiefen neuronalen Netzwerken im Allgemeinen sowie zu Deep-Reinforcement-Learning-Algorithmen im Besonderen produziert, um zum Beispiel optimale Aktionen zu identifizieren, auch wenn es eine Vielzahl von »verrauschten« Zuständen gibt

       4.4Videospiele

      Viele Leser werden sich daran erinnern, wie sie als Kind neue Videospiele gelernt haben. Sie waren vielleicht in einer Spielhalle oder starrten auf den Röhrenfernseher Ihrer Familie und erkannten sehr schnell, dass es kein besonders produktiver Zug war, wenn Sie den Ball in Pong oder Breakout nicht trafen. Sie verarbeiteten die visuellen Informationen auf dem Bildschirm und entwickelten Strategien, um den Controller effektiv zu bedienen. Schließlich war es Ihr Ziel, Ihre Freunde zu übertrumpfen. In den letzten Jahren haben Forscher des Unternehmens Deep-Mind Software hergestellt, die ebenfalls lernt, wie man klassische Atari-Spiele spielt.

      DeepMind war ein britisches Startup, 2010 in London gegründet von Demis Hassabis (Abbildung 4–4), Shane Legg und Mustafa Suleyman. Ihr offizielles Ziel bestand darin »Intelligenz zu verstehen« (»solve intelligence«). Das heißt, sie wollten das Feld der KI ausweiten, indem sie zunehmend allgemeiner einsetzbare Lernalgorithmen entwickelten. Einer ihrer frühen Beiträge war die Einführung von Deep Q-Learning Networks (DQN, siehe auch Abbildung 4–1). Über diesen Ansatz konnte eine Architektur aus einem einzigen Modell lernen, mehrere Atari-2600-Spiele zu spielen – und zwar von Grund auf, einfach nur durch Ausprobieren.

      2013 veröffentlichten Volodymyr Mnih8 und seine DeepMind-Kollegen einen Artikel9 über ihren DQN-Agenten, einen Deep-Reinforcement-Learning-Ansatz, den Sie ganz genau verstehen lernen, wenn Sie in Kapitel 13 selbst Zeile für Zeile eine Variante davon konstruieren. Ihr Agent empfing rohe Pixelwerte aus seiner Umgebung, einem Videospiel-Emulator10, als Zustandsinformationen. Das ist vergleichbar mit der Art und Weise, wie menschliche Spieler von Atari-Spielen den Fernsehbildschirm sehen. Um die Informationen effizient zu verarbeiten, enthielt das DQN von Mnih und seinen Kollegen ein Convolutional Neural Network (CNN), eine verbreitete Taktik für Deep-Reinforcement-Learning-Modelle, denen visuelle Daten zugeführt werden. (Daher rührt auch die Überschneidung von »Deep RL« und »maschinellem Sehen« in Abbildung 4–1). Der Umgang mit der Flut an visuellem Input aus Atari-Spielen (in diesem Fall etwas mehr als zwei Millionen Pixel pro Sekunde) unterstreicht, wie gut Deep Learning im Allgemeinen dazu geeignet ist, relevante Features aus Rauschen herauszufiltern. Außerdem ist das Spielen von Atari-Spielen in einem Emulator ein Problem, das sich besonders für das Deep-Reinforcement-Learning anbietet: Es gibt eine Vielzahl an möglichen Aktionen, deren Meisterung eine gewisse Herausforderung darstellt, aber dankenswerterweise gibt es praktisch auch unendlich viele Trainingsdaten, da der Agent einfach immer weiter spielen kann.

      Abb. 4–4Demis Hassabis war 2010 einer der Mitgründer von DeepMind, nachdem er seinen PhD in kognitiver Neurowissenschaft am University College London erworben hatte.

      Während des Trainings wurden dem DeepMind-DQN keine Hinweise oder Strategien vorgegeben; es erhielt nur den Zustand (die Bildschirmpixel), die Belohnung (seinen Punktestand, den es maximieren soll) und den Umfang der möglichen Aktionen (Spiel-Controller-Buttons), die in einem bestimmten Atari-Spiel zur Verfügung stehen. Das Modell wurde nicht extra an spezielle Spiele angepasst, und dennoch war es in der Lage, vorhandene Machine-Learning-Ansätze in sechs von sieben Spielen zu übertreffen, die Mnih und seine Kollegen mit ihm getestet haben. In drei dieser Spiele war es sogar besser als erfahrene menschliche Spieler. Möglicherweise beeinflusst durch diesen eindeutigen Fortschritt, erwarb Google DeepMind im Jahre 2014 für den Gegenwert von etwa einer halben