Deep Learning illustriert. Jon Krohn. Читать онлайн. Newlib. NEWLIB.NET

Автор: Jon Krohn
Издательство: Bookwire
Серия:
Жанр произведения: Математика
Год издания: 0
isbn: 9783960887522
Скачать книгу
der korrekt die handgeschriebenen Ziffern vorhersagen konnte, ohne dass besondere Expertise über handgeschriebene Ziffern in dessen Code vorhanden sein musste. Entsprechend bietet LeNet-5 eine Gelegenheit, einen grundlegenden Unterschied zwischen Deep Learning und dem traditionellen Machine Learning vorzustellen. Wie in Abbildung 1–12 verdeutlicht wird, zeichnet sich der traditionelle Machine-Learning-Ansatz dadurch aus, dass seine Anwender den größten Teil ihrer Bemühungen in das Entwickeln von sogenannten Features (Eigenschaften, Merkmale) stecken. Dieses Feature Engineering ist die Anwendung ausgeklügelter und oft sehr aufwendiger Algorithmen auf Rohdaten, um eine Vorverarbeitung dieser Daten zu Eingabevariablen vorzunehmen, die dann leicht durch herkömmliche statistische Techniken modelliert werden können. Diese Techniken – wie Regression, Random Forest und Support Vector Machine – lassen sich auf nicht verarbeitete Daten nur selten effektiv anwenden, sodass die Entwicklung der Eingabedaten in der Vergangenheit der Hauptfokus der Machine-Learning-Forscher war.

      Im Allgemeinen wenden Nutzer des traditionellen Machine Learning nur wenig Zeit für das Optimieren von ML-Modellen auf oder darauf, das effektivste Modell aus dem vorhandenen Angebot auszuwählen. Der Deep-Learning-Ansatz stellt diese Prioritäten auf den Kopf. Ein Deep-Learning-Anwender verbringt üblicherweise kaum oder keine Zeit mit dem Entwickeln von Features, sondern verbringt sie damit, Daten mit verschiedenen Architekturen künstlicher neuronaler Netze zu modellieren, die die rohen Eingabedaten automatisch zu sinnvollen Features verarbeiten. Dieser Unterschied zwischen Deep Learning und dem traditionellen Machine Learning (TML) ist das entscheidende Thema dieses Buches. Im nächsten Abschnitt finden Sie ein klassisches Beispiel für das Feature Engineering, das diesen Unterschied genauer erläutern soll.

      Abb. 1–12Feature Engineering – die Umwandlung von Rohdaten in sinnvoll gestaltete Inputvariablen – beherrscht oft den Einsatz traditioneller Machine-Learning-Algorithmen (TML). Im Gegensatz dazu kommt es bei der Anwendung von Deep Learning kaum zu Feature Engineering, sondern der größte Teil der Zeit wird mit dem Entwurf und der Anpassung der Modellarchitekturen zugebracht.

       1.2.3Der traditionelle Machine-Learning-Ansatz

      Im Anschluss an LeNet-5 kam die Forschung zu künstlichen neuronalen Netzen sowie zu Deep Learning gewissermaßen aus der Mode. Der Konsens lautete, dass die automatisierte Feature-Generierung dieser Methode nicht pragmatisch war – dass das featurefreie Vorgehen zwar ganz gut bei der Handschriftenerkennung funktionierte, aber ansonsten nur eingeschränkt einsetzbar sei.15 Das traditionelle Machine Learning inklusive seines Feature Engineering schien vielversprechender zu sein und die Deep-Learning-Forschung verlor eine Menge Fördergelder.16

      Um zu verdeutlichen, was Feature Engineering ist, sehen Sie in Abbildung 1–13 ein berühmtes Beispiel von Paul Viola und Michael Jones aus den frühen 2000er-Jahren.17 Viola und Jones verwendeten rechteckige Filter, wie die senkrechten oder waagerechten schwarzweißen Balken, die in der Abbildung gezeigt werden. Features, die generiert werden, wenn man diese Filter über ein Bild führt, können in Machine-Learning-Algorithmen eingegeben werden, um zuverlässig zu erkennen, ob ein Gesicht vorhanden ist. Diese Arbeit ist deshalb so bemerkenswert, weil der Algorithmus effizient genug war, um die erste Echtzeit-Gesichtserkennung zu liefern, die nicht auf dem Gebiet der Biologie basierte.18

      Abb. 1–13Beispiele für Feature Engineering durch Viola und Jones (2001) zum zuverlässigen Erkennen von Gesichtern. Ihr effizienter Algorithmus fand seinen Weg in Fujifilm-Kameras, die dann zum ersten Mal Echtzeit-Autofokus boten.

      Das Konstruieren der cleveren Gesichtserkennungsfilter zum Verarbeiten der Rohpixel zu Features, die als Input für das Machine-Learning-Modell dienen konnten, war das Ergebnis jahrelanger Forschung und Zusammenarbeit zum Thema »Eigenschaften von Gesichtern« Und natürlich beschränkt sich das Ganze auf das Erkennen von Gesichtern im Allgemeinen – es werden also keine speziellen Gesichter erkannt, wie zum Beispiel das von Angela Merkel oder Oprah Winfrey. Um Features zu entwickeln, die etwa Oprahs Gesicht oder andere Klassen von Objekten, die keine Gesichter sind, erkennen könnten (zum Beispiel Häuser, Autos oder Yorkshire-Terrier), müsste Kompetenz in diesen Kategorien aufgebaut werden, was wieder eine jahrelange Zusammenarbeit der wissenschaftlichen Gemeinschaft erfordern würde, um es effizient und akkurat zu schaffen. Hm, wenn es doch nur möglich wäre, sich die nötige Zeit und Mühe einfach irgendwie zu sparen!

       1.2.4ImageNet und die ILSVRC

      Wie bereits erwähnt, bestand einer der Vorteile von LeNet-5 gegenüber dem Neocognitron in seinem größeren und höherwertigen Satz an Trainingsdaten. Der nächste Durchbruch bei neuronalen Netzen wurde ebenfalls durch einen qualitativ hochwertigen öffentlichen Datensatz ermöglicht, der dieses Mal viel größer war. ImageNet, eine kategorisierte Bilderdatenbank, die von Fei-Fei Li (Abbildung 1–14) begründet wurde, gibt Machine-Learning-Forschern einen riesigen Katalog mit Trainingsdaten an die Hand.19, 20 Zum Vergleich: Die handgeschriebenen Zifferndaten, die zum Trainieren von LeNet-5 benutzt wurden, enthielten Zehntausende von Bildern. ImageNet besteht aus mehr als 14 Millionen Fotos.

      Die 14 Millionen Bilder in der ImageNet-Datenbank sind in über 22.000 Kategorien eingeteilt. Diese Kategorien enthalten so unterschiedliche Dinge wie Containerschiffe, Leoparden, Seesterne und Holunderbeeren. Seit 2010 veranstaltet Li jährlich einen offenen Wettstreit namens ILSVRC (ImageNet Large Scale Visual Recognition Challenge) auf einer Teilmenge der ImageNet-Daten, der mittlerweile das wichtigste Terrain zum Beurteilen der modernsten Algorithmen zum maschinellen Sehen darstellt. Die ILSVRC-Teilmenge besteht aus 1,4 Millionen Bildern aus 1.000 Kategorien. Dabei wird nicht nur ein breites Spektrum an Kategorien geboten; viele der ausgewählten Kategorien sind darüber hinaus Hunderassen, sodass nicht nur die Fähigkeit der Algorithmen abgeschätzt wird, deutlich verschiedene Bilder zu unterscheiden, sondern auch solche zu erkennen, die sich nur leicht voneinander abheben.21

      Abb. 1–14Der gigantische ImageNet-Datensatz ist das geistige Kind der chinesischamerikanischen Informatikprofessorin Fei-Fei Li und ihrer Kollegen in Princeton und entstand 2009. Li, die mittlerweile an der Stanford University arbeitet, ist außerdem Chefwissenschaftlerin für KI/ML bei Googles Cloud-Plattform.

       1.2.5AlexNet

      Wie Sie in Abbildung 1–16 sehen, stammten in den ersten beiden Jahren des ILSVRC alle Algorithmen, die in den Wettbewerb eingereicht wurden, aus dem traditionellen Machine Learning, setzten also auf Feature Engineering. Im dritten Jahr waren alle Teilnehmer mit Ausnahme eines einzigen herkömmliche ML-Algorithmen. Wenn dieses Deep-Learning-Modell im Jahre 2012 nicht entwickelt worden wäre oder wenn seine Schöpfer nicht am ILSVRC teilgenommen hätten, wäre die Exaktheit der von Jahr zu Jahr zu beobachtenden Bildklassifizierung vernachlässigbar gewesen. Stattdessen zerschmetterten Alex Krizhevsky und Ilya Sutskever – beide von der University of Toronto, wo sie unter Leitung von Geoffrey Hinton (Abbildung 1–15) arbeiteten – mit ihrem Beitrag, der heute als AlexNet (Abbildung